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了 中 


前 


MATLAB 是 一 种 主要 用 于 工程 计算 的 高 级 计算 机 语言 。 美 国 的 MathWorks 公司 自 1984 
年 推出 MAITLAB 的 DIS 版 本 后 ， 又 推出 了 它 的 Windows 版 本 ， 并 且 不 断 推出 更 新 的 版 本 ， 
使 得 MATLAB 的 应 用 领域 越 来 越 广 。 到 目前 为 止 ，MATLAB 已 经 包括 仿真 工具 Simulink、 
自动 控制 、 信 号 处 理 、 图 像 处 理 、 神 经 网 络 、 模 式 识别 、 小 波 分析 、 数 理 统计 、 生 物 信息 等 
30 多 个 工具 箱 。 由 于 其 灵活 的 编程 方法 和 极 高 的 编程 效率 ， 加 上 其 在 用 户 界 面 和 功能 上 的 不 
断 扩 展 ， 自 推出 以 来 ， 日 益 受 到 广大 高 校 师 生 和 科研 人 员 的 青睐 。 

MATLAB R2009a 是 MATLAB 的 新 版 本 ， 它 对 以 往 版 本 中 的 产品 模块 进行 了 一 些 调 
整 。 例 如 ，MATLAB Builder for COM 的 功能 被 集成 到 了 MAITLAB Builder for .NET 中 ， 
Finacial Time Series Toolbox 的 功能 被 集成 到 了 Financial Toolbox 中 。MATLAB 将 高 性 能 的 
数值 计算 和 可 视 化 集成 在 一 起 ， 并 提供 了 大 量 的 内 置 函数 ， 从 而 被 广泛 地 应 用 于 科学 计算 、 
控制 系统 、 信 息 处 理 等 领域 的 分 析 、 仿 真 和 设计 工作 。 利 用 MATLAB 产品 的 开放 式 结构 ， 
可 以 非常 容易 地 对 其 功能 进行 扩充 ， 从 而 不 断 深 化 对 工程 问题 的 认识 。 

MATLAB 开放 的 产品 体系 使 其 成 为 了 诸多 领域 开发 的 首选 软件 。MATLAB 还 具有 500 
余 家 第 三 方 合作 伙伴 ， 分 布 在 科学 计算 、 机 械 动 力 、 化 工 、 计 算 机 通信 、 汽 车 和 金融 等 领 
域 。 接 口 方式 包括 了 联合 建 模 、 数 据 共享 和 开发 流程 衔接 等 。 

为 了 更 好 地 适应 高 等 院 校 培 养 高 等 技术 应 用 型 人 才 的 需要 ， 解 决 高 等 院 校 “ 概 率 与 统 
计 ” 理 论 课 与 实践 课 相 结合 的 问题 ， 并 根据 应 用 数学 与 专业 相 融 、 基 础 数学 为 专业 服务 的 基 
本 要 求 和 以 应 用 为 目的 、 以 必需 与 够 用 为 度 的 基本 原则 ， 作 者 在 多 年 从 事 高 等 教育 教学 实践 
的 基础 上 ， 编 写 了 本 书 。 

本 书 介绍 概率 与 数理 统计 的 基本 原理 、 典 型 应 用 ， 以 及 使 用 MATLAB 进行 实际 工程 分 
析 的 基本 方法 。 全 书 共 分 9 章 。 第 1 章 介绍 MATLAB 的 数据 基础 ， 第 2 章 介绍 概率 与 数理 
统计 基本 概念 ， 包 括 随 机 事件 及 其 概率 、 事 件 及 运算 、 条 件 概 率 与 事件 的 独立 性 等 内 容 ;， 第 
3 章 介 绍 多 维 随机 向 量 ， 包 括 二 维 随机 向 量 、 随 机 向 量 的 分 布 、 二 维 随机 向 量 的 数字 特征 等 
内 容 ; 第 4 章 介 绍 统计 估计 及 统计 特征 ， 包 括 统 计 图 的 绘制 、 变 量 分 布 估计 及 概率 分 布 的 统 
计 特 征 等 内 容 ; 第 5 章 介绍 统计 检验 方法 一 一 假设 检验 ， 包 括 假 设 检验 概述 、 单 正 态 总 体 的 
假设 检验 等 内 容 ; 第 6 章 介绍 方差 分 析 及 曲线 拟 合 ， 包 括 因素 方差 分 析 及 数据 曲线 拟 合 等 内 
容 ， 第 7 章 介绍 回归 分 析 ， 包 括 一 元 线性 回归 分 析 、 多 元 线性 回归 分 析 、 偏 最 小 二 乘 回归 分 
析 等 内 容 ; 第 8 章 介绍 多 元 统计 分 析 ， 包 括 因素 分 析 、 聚 类 分 析 及 判别 分 析 等 内 容 ; 第 9 章 
介绍 隐 马 尔 可 夫 模 型 及 统计 工具 箱 的 示范 程序 ， 包 括 隐 马 尔 可 夫 模 型 、 示 范 程序 等 内 容 。 

本 书 具 有 如 下 特点 : 

第 一 ， 注 意 概率 与 数理 统计 的 思想 方法 介绍 。 在 阐述 某 一 统计 概念 方法 时 ， 一 般 是 从 有 具 
体 实例 开始 引出 相关 内 容 ， 或 是 以 具体 实例 结束 相关 内 容 。 

第 二 ， 本 书 在 重视 公式 和 定理 推导 的 同时 ， 也 重视 MATLAB 应 用 于 概率 与 数理 统计 方 


法 时 的 简单 性 、 实 用 性 和 可 操作 性 。 实 际 中 ， 概 率 与 统计 几乎 遍及 各 个 领域 ， 成 为 解决 实际 


吉 








问题 的 重要 工具 。 
第 三 ， 突 出 了 知识 的 技能 化 和 应 用 意识 的 养 成 。 
通过 对 本 书 的 学 习 ， 读 者 不 仅 可 以 掌握 概率 与 数理 统计 的 内 容 ， 同 时 也 能 初步 掌握 使 用 
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第 1 章 MATLAB 的 数据 基础 。 包 


MATILAB 代表 Matrix Laboratory， 是 一 个 高 性 能 的 科学 计算 平台 ， 集 成 了 数值 计算 、 拖 
阵 计 算 和 图 形 绘制 等 众多 功能 。 在 MAILAB 中 ， 问 题 的 提出 和 解答 只 需 按 一 般 的 数学 方式 
表达 和 描述 ， 不 需要 大 量 原始 而 传统 的 编程 过 程 ， 因 此 它 特 别 适 用 于 研究 、 解 决 工程 和 数学 
问题 。MATLAB 还 具有 易 扩展 性 ， 每 个 使 用 者 都 可 以 自 定 义 编 写 函 数 或 程序 。 


1.1 MATLAB 的 主要 功能 
下 下 MATLAB 简介 | 


启动 MATLAB 后 ， 系 统 将 自动 打开 命令 窗口 ， 如 图 1-1 所 示 。 
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图 1-1 MATLAB 命令 窗口 


MATLAB 按 默认 的 路 径 启 动 ， 可 以 通过 pathtool 函数 改变 路 径 ， 即 在 命令 窗口 中 进行 
“>>pathtool” 即 可 打开 路 径 设置 对 话 框 。 图 中 “>>” 为 MAITLAB 命令 的 提示 符 ， 显 示 正 在 
等 待 执行 命令 。 此 时 ， 如 果 输 入 相应 的 命令 ，MATLAB 就 会 运行 ， 并 得 到 运动 结果 。 可 以 
使 用 光标 键 (一 )、(f+ )》、(+ )》 或 〈 一 )》 调 用 前 面 的 命令 ， 以 及 在 命令 行 中 移动 光标 位 置 以 
修改 命令 。 

单 击 【File】 菜 单 下 【New】 子 菜单 下 的 【M-file】 选 项 ， 或 单 击 工具 栏 中 的 如 按钮 ， 
则 弹出 程序 编辑 窗口 ， 如 图 1-2 所 示 。 

MATLAB 的 变量 、 注 释 与 标点 、 函 数 及 Script 文件 介绍 如 下 。 

1， 变量 

MATLAB 变量 的 命名 应 遵守 一 定 的 规则 : 变量 以 字母 开头 〈 区 分 大 小 写 )， 之 后 可 以 是 








任意 字母 、 数 字 或 下 夯 线 ， 但 最 长 不 能 超过 36 个 字符 ， 也 不 能 与 MAILAB 中 的 特殊 变量 
(如 ans、pi、eps、inf、NaN、i、j、nargin、nargout 等 ) 同名 。 
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图 1-2 MATLAB 程序 编辑 窗口 


2. 注释 与 标点 

命令 行 中 “%” 符 号 后 的 所 有 文字 为 注释 ， 计 算 机 不 会 执行 。 多 条 命令 可 以 放 在 同一 
行 ， 但 要 用 去 号 或 分 号 隔 开 。 命 令 后 的 逗号 表示 显示 结果 ， 分 号 则 禁止 显示 结果 。 

符号 “…” 表 示 语 句 的 余下 部 分 将 出 现在 下 一 行 ， 但 它 不 能 出 现在 变量 名 或 运算 符 
之 间 。 

3. 函数 

MATLAB 自 带 的 函数 称 为 内 部 函数 。 内 部 函数 支持 常用 的 数学 函数 ， 书 写 方式 也 基本 
一 致 ， 如 三 角 胃 数 sin(z)、 常 用 对 数 lg(Co)、 自 然 对 数 logCo0)、 指 数 函 数 exp(z)， 开 方 根 sqrtOo) 
等 。 用 户 还 可 以 编写 各 种 自 定 义 的 函数 ， 然 后 像 MATLAB 内 部 函数 一 样 ， 在 工作 环境 下 、 
Script 文件 和 其 他 函数 中 调用 。 

4. Script 文件 

将 MATLAB 命令 放 在 一 个 文件 中 ， 然 后 告诉 MATLAB 打开 文件 并 顺 次 执行 其 中 的 命 
令 ， 这 个 文件 被 称 为 Script 文件 。 它 可 通过 单 击 【File】 菜 单 下 【New】 子 菜单 下 的 【M- 
file】 选 项 创建 。Script 文件 具有 全 局 性 ， 文 件 中 的 所 有 变量 将 在 整个 工作 环境 中 有 效 。 

Script 文件 可 直接 在 编辑 或 工作 窗口 中 执行 ， 也 可 被 其 他 M 文件 和 函数 调用 。 在 工作 窗 
口 直接 输入 Script 文件 名 便 可 运行 ， 而 在 编辑 窗口 中 运行 Script 文件 需 单 击 【Debug】 菜 单 
下 的 【Save File and Run】 命 令 ， 然 后 切换 到 工作 窗口 查看 运行 结果 。 


网 有 可 和 MATLAB 的 数据 及 数值 分 析 


1. 数据 分 析 

MAILAB 在 作 数据 分 析 时 ， 如 果 输 入 的 是 向 量 ， 运 算是 对 整个 向 量 进行 的 ， 若 输入 的 
是 数组 〈 和 矩阵 )， 则 运算 按 列 进行 。 

利用 MATLAB 可 进行 数据 的 基本 统计 计算 ， 如 下 列 各 种 函数 。 运 算 时 ， 如 果 调 用 格式 
中 有 dim， 则 指明 运算 按 指 定 维 数 进行 。 

1) max(x, dim): 求 最 大 元 素 。 

2) min(x, dim): 求 最 小 元 素 。 








展 ATEAB 有 和 二 轩 后 基础 


3) median(x, dim): 求 中 位 值 。 

4) mean(x, dim): 求 平 均值 。 

5) std(x, flag): 求 标 准 差 ，flag 指明 标准 差 的 不 同 计算 方 式 。 
6) prod(x, dim): 求 积 。 

7) sum(x, dim): 求 和 。 

8) cumsum(x, dim): 求 累 计 和 。 

9) cumprod(x, dim): 求 累 计 积 。 

10) cov(X): 求 协 方差 阵 。 

11 ) cov(x, y): 求 相 关 阵 。 

12 ) corrcoeflx): 求 两 随机 变量 的 协 方差 。 
13 ) corrcoefx, y): 求 两 随机 变量 的 相关 系数 。 
14) sort(x): 以 升序 排列 元 素 。 

2. 微 积 分 的 分 析 

1) limit: 函数 的 极限 。 

其 调用 格式 如 下 : 


limit(F,x,a) 
limit(F,a) 
limit(F) 
limit(F,x,avright) 
limit(F,x,avleft) 


其 中 ，limit(F,x,a): 计算 符号 表达 式 已 = FE(zx) 的 极限 值 ， 当 x 一 时 :limit(F,a): 计算 表 
数 书 的 极限 ， 当 x=a 时 ;， limit(F): 默认 a=0 时 ， 求 函数 已 的 极限 ，limit(F,x,avright): 计算 
符号 函数 已 的 右 极 限 ， 当 x* 一 oo 时 ;， limit(Fxavleft) :计算 符号 函数 蕊 的 左 极限 ， 当 
x 一 0 时。 


【 例 1-1】 求 函数 极限 示例 。 


>> Symsxathi; 
al=limit(sin(x)/x) 
a2=limit(1/x,x,0,right) 
a3=limit(1/x,x,0,.Ieft) 
a4=|limit((sin(x+h)-sin(x))/h,h,0) 
VvV=[(1+ ax)^x, exp(-x)]; 
a5=jimit(v,x,inf'left) 


运行 程序 ， 输 出 如 下 : 


al= 1 

22=Inf 

a3 = -Inf 

a4 = coSs(X) 

a5 = [ exp(a)， 0] 
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2) fminbnd: 求 单 变量 函数 的 极 值 。 
其 调用 格式 如 下 ; 


x=fminbnd(fun,x1,x2) 
其 中 ，x= ftminbnd(fun,xl,x2): 计算 在 区 间 a- 涓 上 困 数 严 取 最 小 值 时 的 x 值 。 
【 例 1-2】〗 求 函数 fr(oo0 = 2z 妇 -6c -18x+7 在 区 间 (-2,4) 的 极 小 值 ， 并 作 图 。 
其 实现 的 MATLAB 程序 代码 如 下 : 


仁 inline(2*X.^3-6*X.^2-18*X+7"); % 建 立 内 联 函 数 fx) 
[xf=fminbnd(f -2,4) % 求 函 数 f 的 最 小 值 和 对 应 的 x 值 
fplot(f[-2,4])， % 作 图 

运行 程序 ， 输 出 如 下 《效果 见 图 1-3 ): 
x= 3.0000 
全 = -47.0000 


注意 : 用 inline 建立 的 函数 万 在 fminbnd 和 印 lot 命令 中 不 用 加 单 引 号 ， 而 用 M 函数 文 
件 建 立 的 函 数 则 要 加 单 引 号 。 


妆 -1 0 1 2 3 4 
图 1-3 ftminbnd 函数 图 形 结果 
3) diff: 求 函 数 的 微分 。 
其 调用 格式 如 下 : 
Y=diffXndim) 


其 中 ，Y = difRX,n,dim): 对 符号 表达 式 允 中 指定 的 符 号 变量 交 计 算 碟 的 dm 阶 导数 。 
在 默认 状态 下 ，s=fimndsym( 2，dim=1。 
【 例 1-3】 求 函 数 的 微分 示例 。 


>> SymsXyt 





dl1=diffsin(x^2)*y^2,2) 


d2=diffdly) % 计 算 2 





d3=difft^6.6) 





| 开 古 的 数据 基 珊 





运行 程序 ， 输 出 如 下 : 





dl] = 
-4*Ssin(X^2)#X^2+Y^2+2#COS(X^2)*y^2 
d2 = 
-8*+Sin(X^2)#XA^A28Y+4*#COS(X^2)#y 
d3 = 720 

4) quad: 求 函 数 的 积分 。 

其 调用 格式 如 下 ; 


q=quad(fun,a,b) 
q=quad(fun,a,b,tol) 
[q,fcnt] = quad(.…) 


其 中 ，q = quad(fun,ab): 近似 地 从 a 到 ”计算 函数 fun 的 数值 积分 ， 误 差 为 104; q 
= quad(fun,a,b,toD): 用 指定 的 绝对 误差 tol 代替 默认 误差 ，[q,fent] = quad(...): 返回 函数 fent 
的 估计 阶 数 。 


【 例 1-4】 求 积分 函数 7= j 二 上 dr 


其 实现 的 MATLAB 程序 代码 如 下 : 


F = 人 @@(x)1./(x.^3-2*x-5); 
Q = quad(F,0,2); 


运行 程序 ， 输 出 如 下 : 


Q= -0.4605 

5) trapz: 梯形 法 数值 积分 。 

其 调用 格式 如 下 : 
Z=trapz(X,Y) 


其 中 ，Z= trapz(CX,Y): 用 梯形 法 计算 了 在 无 点 上 的 积分 。 
【 例 1-5】 用 梯形 法 求 数值 积分 示例 。 


X=sort(rand(1,101)*pi); 


Y=sSsin(X); 

Z=trapz(X,Y) 
运行 程序 ， 输 出 如 下 : 

乙 = 1.9989 
6) int: 符号 函数 的 积分 。 
其 调用 格式 如 下 : 


R=int(S,v) 








R=int(S,v,a,b) 
其 中 ，R=int(S,v): 对 符号 表达 式 $ 中 指定 的 符号 变量 " 计算 不 定 积 分 ，R=int(S,va'b): 
对 表达 式 $ 中 指定 的 符号 变量 > 计算 从 到 “的 定 积 
【 例 1-6】 符号 函数 的 积分 示例 。 


symsXxZztalpha 
R1=int(-2*x/(1+x^2)^2) 
R2=int(x/(1+Z^2),Z) 
R3=int(x*log(1+x),0.1) 
R4=int(2*Xx, sin(t, 1) 
RS=int([exp(bD,exp(alpha*tb]) 


运行 程序 ， 输 出 如 下 : 
R1 = 1(1+x^2) 
R2 = x*#atan(Zz) 
R3= 1/4 
R4 = 1-sin(D^2 
Rs = [exp(b，1l/alpha*exp(alpha*t)] 

7) taylor: 泰勒 级 数 展开 。 

其 调用 格式 如 下 : 
taylor( 全 
taylor(fn,v,a) 

其 中 ，taylorD : 求 出 符号 图 数 了 在 z=0 处 的 5 阶 麦 克 劳 林 型 泰勒 展开 式 ， 

taylor(fn,va): 求 出 符号 函数 7 在 "=a 点 的 呈 1 阶 泰 勒 展开 式 。 
【 例 1-7】 求 二 阶 泰 勒 级 数 展 开 示例 。 


Syms aX 


仁 a/(x-10); 
yl=taylor(fx,3) % 求 了 在 x=0 处 的 二 阶 泰勒 级 数 展开 


y2=taylor(f3,x,4) % 求 人 在 x=4 处 的 二 阶 泰勒 级 数 展开 
运行 程序 ， 输 出 如 下 ; 


yL= 
-1/10*a-1/100*a*#Xx-1/1000#a*+X^2 

y2 二 
-1/6*a-1/36*ay(X-4)-1/216*a*(Xx-4) 2 


8) 傅 里 时 级 数 展开 。 
MATLAB 中 没有 专门 用 于 傅 里 时 级 数 展 开 的 命令 ， 可 编写 一 个 M 文件 实现 传 里 叶 级 数 


展开 。 


function [a0,anbn]=mfourier(f) 








Syms n X 
a0=int( 人 -pbpiypi; 

an=int(fycos(n#x),-pbupiy/pi; 
bn=int( 伴 sin(n*x),-pipiy/pi; 


【 例 1-8】 傅 里 叶 级 数 展 开 示 例 。 





Syms X 
人 exXA24%5 
[a0,an,bn]j=mfourier(T 


运行 程序 ， 和 输出 如 下 : 


a0 = 2/3*pi^2 
an = 
27*(-2*sin(pi*n)+n^2*sin(piyn)*pi^2+2*#n#cos(piyn)*#pi)n^3/pi 
bn = 
-2/n^2*#(-Sin(pi#n)+Hnycos(pi*n)#pi)/pi 
进一步 化 简 : 
>> an=simple(an) 
an 三 -4/n^3/pi*sin(pi*n)+2/n#sin(pi*n)#pi+4/n^2*cos(pi*rn) 
>> bn=simple(bn) 
bn = 2/n^2/piysin(pixn)-2/n*cos(pi*n) 
3.， 非 线性 方程 的 数值 解 
1) folve: 最 小 二 乘法 。 
其 调用 格式 为 
X= fsolve(fun,x0) 
其 中 ，x = folve(fun,x0): 求 方程 in=0 在 估计 值 r0 附近 的 近似 解 。 
【 例 1-9】 求 方程 x-e* =0 的 解 。 


化 =inline('x-exp(-x)); 
X1=fhsolve(fe,0) 


运行 程序 ， 输 出 如 下 ; 


Optimization terminated: first-order optimality is less than options.TolFun. 
Xl = 
0.5671 


【 例 1-10】〗 求解 下 列 方程 组 的 解 。 


ES 
2 入 一石 一 6 1 = 
一 慷 十 ZX -em =0 


先 编制 函数 myfun.m 文件 。 








functionF = myfun(x) 
F = [2*x(1) - x(2) - exp(-x(1))》; 
-X(1) + 2*X(2) - exp(-x(2))]; 


在 命令 窗口 调用 myfun 文件 实现 程序 : 


X0 = [-S; -5]; 

options=optimset('Display',iter); 

[x,fval] = 人 olve(@myfun,x0,options) 
运行 程序 ， 输 出 如 下 : 


fter 33 function evaluations, a Zero js found. 
Norm of First-order Trust-region 


Lteration Func-count 全 x) step optimality radius 
0 三 23535.6 2.29e+004 1 
1 6 6001.72 ] 5.7Se+003 1 
2 9 1573.51 1 1.47e+003 1 
可 12 427.226 1 388 1 
4 15 119.763 1 107 ] 
有 18 33.52006 1 30.8 1 
0 21] 8.35208 1 9.05 1 
7 24 1.21394 1 2.20 1 
8 27 0.016329 0.759511 0.206 Pi， 
9 30 3.51$75e-006 0.111927 0.00294 2.5 

10 33 1.64763e-013 0.00169132 6.36e-007 2 考 


Optimization terminated Successfujly: 
First-order optimality is less than options.TolFun 
X 一 
0.5671 
0.5671 
fval = 
1.0e-006 *# 
-0.4059 
-0.4059 


2) fzero 图 数 : 零点 法 。 
其 调用 格式 如 下 : 


X = fzero(fun,x0) 


其 中 ，x = fzero(fun,x0): 求 函 数 /ion 在 x0 附近 的 零点 。 估 计 值 x0 若 为 标量 ， 则 在 x0 附 
近 查 找 零点 ，x0=[x1，x2] 为 向 量 时 ， 则 首先 要 满足 函数 fun(xl)fun(x2)<0， 然 后 将 严格 在 [xl1， 


x2] 区 间 内 寻找 零点 ， 若 找 不 到 ， 系 统 将 给 出 提示 。 
【 例 1-11】 求 函 数 A(xz) = 关 -2x-5S 的 零点 。 


f = 他 (X)X.^3-2*#X-S; 
Z= fzero(f2) 








上 (wwATtAB 的 数据 基础 


运行 程序 ， 输 出 如 下 : 
z= 2.0946 


4. solve 函数 
功能 : 求 代数 方程 的 符号 解 。 
其 调用 格式 如 下 : 


solve(eq) 

solve(eq,var) 

Solve(eql,eq2,…,eqn) 

g= Solve(eql,eq2,…,eqmyvarl,var2,…,varn) 


其 中 ，solve(eqg): 求解 方程 eq=0， 输 入 参量 eq 可 以 是 符号 表达 式 或 字符 串 表 达 式 ; 
solve(eq,var): 对 eq 中 指定 的 变量 var 求解 方程 eq(var)=0;， solve(eql,eq2,.,eqn): 求解 方程 组 
eql=0 ，eq2=0 ，…，eqHn=0; 8g = solve(eql,eq2…,eqnvvarl,var2,varm) : 对 方程 组 eql， 
eq2,…'eq7 中 指定 的 半 个 变量 varl, var2,……, varnz 求解 。 

下 面 通过 程序 代码 来 了 解 Sdve 函数 的 用 法 。 


Solve('ayx^2 十 b*x 十 c) 

solve('arx^2 + bx + cvb) 
S=solve(x+y=1x-1l*y=5) 

A= solve(a*u^2 + v^2u-v=],'a^2 -Sra+6) 
yl1=A.ay2=A.uUy3=A,v 


运行 程序 ， 输 出 如 下 : 


ans = 
-1/2*(b-(b^2-4*a*c)A(1/2))a 
-1/2*#(b+(b^2-4*ayc)M1/2))/a 
ans = -(a#X^2+CJ/X 
S=  x:[1xl sym] 
y: [xl sym] 
A= 
a: [4xl sym] 
u: [4xl sym] 
v: [4xl syml] 


(0 


y2= 
1/3+1/3*i*2A(1/2) 
1/3-1/3*j*2^A(1/2) 
1/4+L/4*i*3^A(1/2) 
1/4-1/4*i*3^A(1/2) 











y3 = 
-2/3+1/3*jf2^(1/2) 
-2/3-1/3*j*+2^A(1/2) 
-3/4+1/4*i*3A(1/2) 
-3/4-1/4*i*3A(1/2) 


5. solver 函数 

功能 : 求 常 微分 方程 的 数值 解 。 

其 调用 格式 如 下 : 

[T, Y]=solver(odefun, tspan, y0) 

其 中 ，[T Y]=solver(odefun, tspan, y0): 在 区 间 tspan=[x0 如上， 用 初始 条 件 ?0 求解 显 式 
微分 方程 多 = (ty) 。solver 为 命令 ode45，ode23 ，ode113 ，ode15s，ode23s，ode23t， 
ode23tb 之 一 

odefun 为 显 式 常 微分 方程 了 = ny) 。 

tspan 积分 区 间 〈 即 求解 区 间 ) 的 向 量 tspan=[x0, 可。 要 获得 问题 在 其 他 指定 时 间 点 t0, 刀 ， 
Z2,…, 太 上 的 解 ， 则 令 tspan=[r0, 上 1, 2,…, 如 〈 要 求 是 单调 的 )。 

J0 包含 初始 条 件 的 向 量 。 

求解 具体 ODE 的 基本 过 程 如 下 ; 

GO 根据 问题 所 属 学 科 中 的 规律 、 定 律 和 公式 ， 用 微分 方程 与 初始 条 件 进行 描述 。 

FOOD=0 
J(0)= 芒 ,多 (0)= 太 yy (0) = 

而 了 = (502)3…3(m-D)， 于 与 六 可 以 不 等 。 

@@ 运用 数学 中 的 变量 替换 ，】 = Jr =D02 po 芒 = 切 六 =》， 把 高 阶 ( 大 于 二 
阶 ) 的 方程 (组 ) 写成 一 阶 微分 方程 组 : 

咱 ] 人 GD) 攻 (0) 1 fm 
7 改 刀 信 力 入 = 六 (0) 司 
外 人 GDI (DUO 

@) 根据 台 与 @ 的 结果 ， 编 写 能 计算 导数 的 M 函数 文件 odefile。 

网 将 文件 odefile 与 初始 条 件 传 递 给 求解 器 Solver 中 的 一 个 ， 运 行 后 就 可 得 到 ODE 
的 、 在 指定 的 时 间 区 间 上 的 列 向 量 解 》〈 其 中 包含 及 不 同 阶 的 导数 )。 

因为 没有 一 种 算法 可 以 有 效 地 解决 所 有 的 ODE 问题 。 为 此 ，MATLAB 提供 了 多 种 求解 
器 Solver。 对 于 不 同 的 ODE 问题 ， 采 用 不 同 的 Solver， 见 表 1-1。 


表 1-1 不 同 求解 器 Solver 的 特点 


非 刚 镍 一 步 算 法 ，2, 3 阶 Runge-Kutta 方程 ， 累 计 截 断 误 差 达 (Ar 适用 才 精 度 较 低 的 情形 


非 刚性 多 步 法 ，Adams 算法 ， 高 低 精度 均 可 达到 10- 一 10* 计算 时 间 比 ode45 知 








TITETTTT 数据 基础 


( 续 ) 






求解 句 Solver 


ode231 











适 虚 痢 性 采用 傍 度 算法 


刚性 多 步 法 ，Gear's 反 向 数值 微分 ,精度 中 等 
刚 必 :水 法 ，2 阶 Rosebrock 算法 . 低 精 度 
刚性 即 TR-BDF2 实现 ， 类 似 乒 ode23s 


【 例 1-12】 求解 微分 方程 交 = -27y+2z+2x，0<x 和 0.35，)O)=1。 


适用 了 适度 症 情形 


ode45 灾 效 时 ， 可 从 试 使 
川 


当 精 上 度 较 低 时 ， 计 算 时 
间 比 odelss 区 


这 个 算法 比 odelss 业 精 













3 
ode23tb 确 


fun=inline('-2*#y+2#X^2+28#X'，X'y ); 
[xy]j=ode23(fun,[0 0.5].1); 
攻 
ans = 
Columns 1 through 8 
0 0.0400 ”0.0900 ”0.1400 ”0.1900 ”0.2400 “0.2900 “0.3400 
Columns 9 through 12 
0.3900 ”0.4400 ”0.4900 0.5000 
>> y 
ans = 
Columns 1 through 8 
1.0000 ”0.9247 ”0.8434 ”0.7754 ”0.7199 0.6764 0.6440 0.6222 
Columns 9 through 12 
0.6105 0.6084 0.6154 0.6179 
>> plot(x,y',o) 
hoild on, 
plot(x,y) 


运行 程序 ， 效 果 如 图 1-4 所 示 。 
【 例 1-13】 求解 描述 振荡 器 的 经 典 的 Ver der Pol 伍 分 方程 5 学- AL- 2) 开 +y=0 
y(0)=1，J(0)=0。 


分 析 : 令 拓 二 7， 二 = 全 ， A=7， 则 : 





呈 。 

FE 

dr 

示 =7(L -好 )7x 为 


编 与 M 文件 VDPm 如 下 : 


function fy=VDP(tx) 
fy=[x(2):7*(1-x(1)^2)*x(2)-x(])]; 


在 命令 窗口 中 执行 以 下 程序 : 








Y0=[1;0]; 
[tx]=ode4SCVDP',[0 40],Y0); 
y=X(:1); 

dy=x(:,2); 

plot(t,y,bdy); 


运行 程序 ， 效 果 如 网 1-5 所 示 。 
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图 1-4 例 1-12 的 图 形 图 1-5 例 1-13 的 图 形 


6.， dsolve 函数 
功能 求 常 微分 方程 的 符号 解 。 
其 调用 格式 如 下 : 


T= dsolve(eql,eq2,…"， condl,cond2…，V) 


其 中 : 
@ 对 给 定 的 常 微分 方程 〈 组 》eql，eq2… 中 指定 的 符号 自 变量 w， 与 给 定 的 边界 条 件 和 
初始 条 件 condl, cond2… 求 符号 解 〈 即 解析 解 ) r。 
@ 若 没 有 指定 变量 v， 则 默认 变量 为 6 在 微分 方程 (组 ) 的 表达 式 eq 中 ， 大 写字 母 D 
表示 对 自 变量 〈 设 为 *) 的 微分 算 子 ，Dy = dy/dx ，D27y = dy/dxz ，…， 微 分 算 子 
D 后 面 的 字母 则 表示 因 变 量 ， 即 竺 求解 的 未 知 函 数 。 
@ 初始 和 边界 条 件 由 字符 串 表 示 :， ya)=，Dy(c)=d ，D2)(ej)= 了 等， 分 别 表示 
?CO =5，yC0o0l_ =4d，y ol = 
@ 若 边 界 条 件 少 于 方程 (组 ) 的 阶 数 ， 则 返回 的 结果 关中 会 出 现任 意 常数 Ci,C,，…… 若 该 
命令 找 不 到 解析 解 ， 则 返回 警告 信息 ， 同 时 返回 空 的 sym 对 象 ， 这 时 ， 用 户 可 以 用 
命令 ode23 或 ode45 求解 方程 组 的 数值 解 。 
【 例 1-14】 dsolve 函数 示例 。 
Di=dsolve(Dx = -ax*xX") 
D2=dsolve((Dy)^2 + y^2 = 1,s)) 
D3=dsolve(CDy = ar*y', 'y(0) =b) 
D4=dsolve(D2y = -a^2+y,'y(0) = 1,'Dy(pila) = 0) 
D5=dsolve(Dx =y','Dy = -x) 


运行 程序 ， 答 出 如 下 : 


MATLAB 的 数据 基础 





D1 =C1#+exp(-a#ft) 
D2 = 
-1 
Sin(S-C1) 
1 
-Sin(S-C1) 
D3 = bf*exp(a*+t) 
D4 = cos(a+b) 
D5 = 
x: [1xl sym] 
yY: [lxl sym] 


三 司 MATLAB 和 矩阵 的 建立 及 基本 操作 | 
1. 数 、 数 组 、 和 矩阵 的 输入 
(1) 数 的 输入 


>> a=7 


输出 如 下 ; 





a= 
7 


(2) 输入 复数 
>> b=3+3i 


输出 如 下 : 
b = 
3.0000 + 3.0000i 


(3) 数组 的 输入 
>> X=[3 57;2 8 9;11 22 32] % 行 之 问 用 分 号 或 空格 隔 开 


输出 如 下 : 


(4) 等 待 键盘 的 输入 命令 
其 调用 格式 为 


>> n=input(' 请 输入 初始 量 ,n=); 
输出 如 下 ; 
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请 输入 初始 量 ,= 


注意 : 变量 名 开头 必须 是 英文 字母 ， 后 面 的 字符 可 以 是 英文 、 数 字 或 下 画 线 ， 但 不 包含 


空格 和 标点 。 
2. 和 矩阵 大 小 的 测试 和 定位 


>> A=[359;289;782;12 
>> d=numel(A) 

>> [n,m]=size(A) 

>> [ij]=find(A>3); 


>> 1 
得 出 如 下 : 
d = ]2 
D = 4 
mm 三 3 
ans 
3 ] 2 
ans 三 
] 2 2 


注意 : “%” 后面 是 注释 语 


3]; 
% 测 试 知 阵 A 的 姑 素 数 
% 测 试 A 的 行 m、 列 (m) 数 
%% 找 出 A 中 大 于 3 的 元 素 所 在 的 行 数 和 列 数 
% 输 出 i，j 的 转 置 


句 ， 被 忽略 而 不 执行 ， 对 一 个 数组 可 用 ji=length(4)，4 若是 


托 阵 ， 给 出 4 的 行 、 列 数 的 最 大 值 。 


3. 和 矩阵 的 块 操 作 


>> A(2,:); 
A([1 3],); 
A(2:3,1:2) 
ans 三 

2 

7 
>> A(2,:); 
A([1 引 ) 
A(2:3,1:2) 
Al[1 3],:=A([3 1],:) 
ans = 


thD ~ ~ iD 
io 惟 0 上 oo oo 
DSSD hb 


1 
>> A(2,: 六 4; 
>> Alfind(A 一 3) 广 -3; 


% 到 出 A 的 第 二 行 的 所 有 元 素 


% 取 出 A 的 第 一 ， 三 行 的 所 有 元 素 
% 取 出 A 的 第 二 ， : 行 与 第 --， 列 交 义 的 元 素 


% 取 出 A 的 第 一行 的 所 有 元 素 

% 取 出 A 的 第 一 ， 三 行 的 所 有 元 素 

% 取 出 A 的 第 一 ， 三 行 与 第 -， 二 列 交叉 的 元 素 
% 将 A 的 第 “ 行 和 第 二 行 交 换 


% 将 A 的 第 二 行 的 所 有 元 素 用 4 取代 
% 将 A 出 等 上 3 的 所 有 元 素 换 为 -3 


WMATLAB 的 数据 基础 





>> A(2,:)=[] % 删 除 A 的 第 一 行 
人 A 二 
7 8 2 
-3 4 9 
diag(A,jo; % 提 取 和 托 阵 A 的 第 k 条 对 角 线 上 的 元 素 
tril(A,k); % 抽 到 备 阵 A 的 第 k 条 对 角 线 下 血 的 部 分 
triu(A,k); % 抽 取 和 矩阵 A 的 第 k 条 对 角 线 上 疝 的 部 分 
注意 : “: ”表示 “全 部 ”的 意思 。 
4. 和 矩阵 的 翻转 操作 
fliipud(A); % 对 A 进行 上 下 恶 转 
fliplr(A); % 对 A 进行 左右 翻转 
rot90(A); % 对 A 首 时针 旋转 90? 
5.， 特殊 矩阵 的 产生 
A=eye(n); % 产 生 nm 维 单位 矩阵 
A=ones(nm); % 产 生 nXm 维 的 全 1 窍 阵 
A=zeros(nm); % 产 生 nXm 维 的 全 0 和 矩阵 
A=rand(n,m); % 产 生 nXam 维 随 机 和 阵 〈 元 素 在 0-1 之 问 ) 
randn(m.n); % 产 生 mXn 维 正 态 分 布 随机 和 托 隆 
B=logspace(a,b,n); % 在 ab 之 间 产 生 nm 个 对 数 等 分 剖 晶 
diag(ab,n); % 返 回 n 阶 以 ab, c, d，… 为 对 角 线 元 素 的 矩阵 
hilb(n); % 返 回 n 阶 Hilber 年 阵 ， 其 元 素 为 HGJ)=IG+j-D) 
magic(n); % 产 生 n 阶 魔方 矩阵 
randperm(n); % 产 生 1~n 之 间 整 数 的 随机 排列 
【 例 1-15 村 randperm 项 数 示例。 
>> A=randperm(6) 
运行 程序 ， 输 出 如 下 ; 
人 二 
6 3 3 1] 2 4 
6. 数 的 运算 
3+6; 
3*6; 
6/3; %6 右 除 3, 等 于 2 
6\3; %6 左 除 3, 等 于 0.5 
和 %66 的 3 次 方 


sqrt(3); %3 的 算术 平方 根 
exp(3); %e 的 3 次 方 ,不 能 输 成 e^3 
log(4); %4 的 自然 对 数 ,log10(4) 表 示 以 10 为 底 ,log2(4) 表 示 以 2 为 底 








7. 矩阵 的 运算 


A'; 
det(A); 
rank(A) 
inv(A); 
eig(A); 
[X,.D]=eig(A); 
trace(A); 
38A; 
A+B; 
A-B; 
Ar*B; 
A/B; 
A\B; 

疙 2 


%A 的 转 置 

%A 的 行列 式 ,A 必须 是 方 阵 

%A 的 秩 

%A 的 道 

%A 的 林 征 值 

%A 的 本 征 矢量 X 及 木 征 值 D 

%A 的 迹 ,等 于 A 的 对 角 线 元 素 之 和 

% 常 数 与 年 阵 相 乘 

% 表 示 窍 阵 A 与 矩阵 B 相 加 ， 其 中 ，A，B 必须 是 同 维 矩 阵 ， 和 3+A 进行 比较 
% 表 示 和 窍 阵 A 与 矩阵 B 相 减 ， 其 中 ，A，B 必须 是 同 维和 矩阵 ， 和 3-A 进行 比较 
% 表 示 垂 阵 A 与 矩阵 B 相 乘 ， 和 A.*B 进行 比较 

% 表 示 德 阵 A 左 除 矩 阵 B， 和 A-B 进行 比较 

% 表 示 和 矩阵 A 右 除 和 矩阵 B， 和 A、B 进行 比较 

%A^2 相当 于 A*A， 和 A.^2 进行 比较 


注意 : 短 阵 的 加 、 减 、 乘 、 除 按 相 关 规 则 运算 ， 否 则 给 出 警告 信息 。“.*”，“./1"， 
“DA 称 为 点 运算 (或 称 为 数组 运算 ， 又 称 为 元 素 群 运算 )。 点 运算 是 前 后 矩阵 对 应 元 


素 之 间 的 运算 。 


8. 变量 的 存储 与 调用 


(1) 存储 


>> Savye data ab c 


(2) 调用 


>> load data 


% 将 变量 ab, c 存 到 data.mat 文件 小 


% 将 data.mat 文件 中 的 所 有 变量 加 载 到 工作 空间 


9.， 列 出 工作 空间 所 有 变量 


>> whos 
10.， 联机 帮助 


>> help sqrt 





%% 将 列 出 工作 空间 所 有 变量 的 变量 名 、 大 小 、 字 节 数 、 数 组 维 数 


%% 将 显示 出 平方 根 sqrt 命令 的 功能 和 使 用 方式 


符 吕 过 算是 MAITLAB“ 符 号 数学 工具 箱 ” 具 有 的 功能 ， 它 是 指 运算 对 象 允 许 是 非 数 值 


的 符 忆 变量 。 
(1) 符号 表达 式 


符号 表达 式 是 代表 数字 、 函 数 、 算 子 和 变量 的 MATLAB 字符 串 ， 或 字符 串 数组 ， 不 要 


求 变量 有 预先 的 值 。 


符号 表达 式 可 以 直接 用 单 引号 括 起 来 表示 ， 也 可 以 用 sym、syms 或 inline 命令 创建 。 
% 下 列 语句 中 ， 表 示 x，y 为 自 变量 ，f 是 符号 表达 式 ， 但 这 个 方法 不 能 创建 符号 方程 





Syms Xx yn 


11(2*x^n)' % 表 示 单 引号 内 是 字符 串 
'a*#XA2+b#X+C=0 - % 表 示 单 引号 内 为 代数 方程 
人 inlineCx^2+5) % 定 义 函 数 

仁 sym('a+x^2+b*x+c=0) % 表 示 上 的 符号 方程 式 
a=sym('[2*+x,sin(x);sqrt(x),cos(x)]) % 创 建 2X2 的 符号 矩阵 

仁 sin(x)+cos(y) 





在 符号 表达 式 中 ，MATLAB 约定 D 表示 一 阶 微分 ，D2 表示 一 阶 微分 ，…， 符 号 Dy 相 


>> 作 (Dy)"2+y'2=1 


表示 微分 方程 。 
在 符号 表达 式 中 ， 如 果 变 量 数 多 于 一 个 ， 除 非特 别 声明 ， 徊 则 只 有 一 个 是 独立 变量 。 
般 Xx 永 远 是 独立 变量 ， 可 以 使 用 函数 symvar 询问 自 册 变量。 符号 变量 不 一 样 ， 运 算 结果 是 
不 同 的 。 
(2) 符号 表达 式 运 算 
1) 符号 与 数值 间 的 转换 。 
digits(d); 设置 有 效 数字 个 数 为 4d 的 近似 精度 。 
vap(s): 返回 表达 式 s 在 digits 范 数 设置 下 的 精度 的 数值 解 。 
vap(s, d): 返回 表达 式 > 在 digits(d) 精 度 下 的 数值 解 。 
subs(S，old, new): 以 new 代替 表达 式 s 中 的 old。 其 中 old 为 表达 式 中 的 符号 变量 ，new 
为 符号 或 数值 变量 或 数值 表达 式 。 
2) 数值 矩阵 转换 为 符号 和 矩阵。 常数 〈 数 值 ) 也 可 以 表示 为 符号 表达 式 。 因 此 ， 符 号 和 矩 
阵 运算 过 程 中 如 有 数值 矩阵 ， 必 须 将 其 转换 成 符号 和 矩阵 。 
>> a=[10.5 11;9.1 5.6]; % 和 矩阵 
>> 仁 sym(a) % 说 明 a 是 符号 矩阵 或 将 其 转换 成 了 符号 矩阵 
人 三 
[ 21/2， 11] 
[9U10，28/5] 


(3) 运算 

图 数 符 导 的 运算 可 以 通过 funtoolGUI 界面 进行 ， 各 种 运算 的 意义 可 通过 界面 上 的 
(Help) 键 获得 。 其 中 ， 符 号 的 微分 、 差 分 计算 可 以 用 与 数值 微分 、 差 分 相同 的 符号 
diff。 

difRs,'x, n): 对 符号 表达 式 s 中 的 自 变 量 x 进行 另 次 求 导 (zz 默认 值 为 1)。 

int(f'a, b): 对 符号 表达 式 * 中 的 自 变量 x 在 [c, 避 区 间 进 行 积分 。 

符号 和 矩阵 的 运算 则 与 数值 矩阵 的 运算 完全 相同 ， 如 : 

>> 3a=Sym([x+2;3*x+3]); 


>> b=sym([x^2;3*sin(x)-3]); 
>> y=a+b 








X+2+XA^2 
3*X+3*Sin(X) 


MATLAB 的 绘图 功能 


1. 绘制 二 维 图 形 
(1) 基本 绘图 函数 plot 
其 调用 属 式 如 下 : 


plot(X, Y) 





其 中 ，plot(X, Y): 以 名 了 了 的 对 应 元 素 为 坐标 绘制 一 维 图 形 ， 其 中 关 了 的 维 数 要 匹配 。 
【 例 1-16】 plot 函数 示例 1。 


x=0:pi/18:2*+pi; 。 % 给 出 横 坐 标 


y=sin(x); %% 计 算出 纵 坐 标 
plot(x,y); % 绘 制图 形 


运行 程序 ， 效 果 如 疼 1-6 所 示 。 


1 


o 
了 到 
”0 2 4 6 8 


图 1-6 ”二 维 绘图 


plot(Y): 若 了 为 六 维 向 量 ， 则 等 价 于 plot(X,Y)， 其 中 ， 咎 1: mm。 

plot(X1，Y1，LineSpec1，X2，Y2，LineSpec2,…): 将 按 顺序 分 别 画 出 由 3 个 参数 定义 
Xi，Yi，LineSpeci〈 到 1.2,…) 的 线条 。 其 中 ， 参 数 LineSpeci 指明 了 线条 的 类 型 ， 标 记 
符号 和 画 线 的 颜色 。 

其 中 ，@ 线 型 : 有 实 线 、 点 线 、 虚 线 、 点 画 线 。 例 如 ,“-” 表 示 实 线 。 

@ 线条 宽度 LineWidth 取 值 为 整数 。 例 如 ，'LineWidth'，2 表示 线 宽 为 两 个 像素 。 

@) 线条 颜色 : 常用 的 有 8 种 颜色 。 例 如 ，'b--' 表 示 画 蓝 色 虚 线 。 

区 标记 类 型 : 表示 数据 点 标记 的 类 型 ， 常 用 的 有 13 种 。 例 如 ，'#r 表 示 红 色 星 号 。 

鲜 标记 大 小 : MarkerSize 指定 标记 符号 的 大 小 尺寸 ， 取 值 为 整数 〈 单 位 为 像素 )。 

@@ 标记 面 填 充 颜 色 : 'MarkerFaceColor 指 定 用 于 填充 标记 符 面 的 颜色 ， 颜 色 配 比 方案 见 
表 1-2。 例 如 ，'MarkerFaceColor，[0 1 0] 表 示 标 记 面 填 绿色 。 

G@ 标记 周边 颜色 : 如 “MarkerFaceColor' ， 尿 "表示 标记 周边 用 黑色 ， 其 参数 也 见 
表 1-2。 














， 


ET CT 


【 例 1-17】 plot 函数 示例 2。 


t0:pi/20:2#pi; 
plot(tt.*sin(t)，-.ry); 

hold on; 
plot(exp(U100).*cos(t-pi/2),--mo); 
plot(sin(t*pi),:bs'); 

hold o 储 


运行 程序 ， 效 果 如 图 1-7 所 示 。 

注意 : hold on 表示 继续 在 当前 图 形 上 画图 。 

【 例 1-18】 plot 函数 示例 3。 
t0:pi/20:2*+pi; 
plot(tsin(2*b, -mo',LineWidth',1.5,MarkerEdgeColor,k', MarkerFaceColor 
[0.49,1,0.63],'.MarkerSize',10); 


运行 程序 ， 效 果 如 图 1-8 所 示 。 
(2) fplot 函数 
其 调用 格式 如 下 ; 


向 下 的 
向 左 的 
向 有 的 
下 边 形 
六 边 展 


ye 


: 角 彤 
: 角 彤 
: 角 展 














图 1-7 例 1-17 图 形 图 1-8 例 1-18 图 形 


fplot(function', limits) 


其 中 ，fplot(function'，limits): 在 指定 的 范围 limits 内 画 出 函数 名 为 fbnction 的 一 元 琐 数 
图 形 。 其 中 ，limits 是 一 个 指定 x 轴 范 围 的 向 量 [xmin，xmax]， 或 者 是 x 轴 和 ?了 轴 的 范围 的 向 
基 [xmin, xmax, ymin, ymax]。 

【 例 1-19】 fplot 函数 示例 。 

X=0:pi/18:2*#pi; 
印 lot('sin(3*x),[0 piD); % 画 出 x 在 0-~pi 之 间 的 y=sin3x 的 图 形 
印 lot('[sin(x),cos(x)],[-2*pi2*pi]); % 在 同一 张 图 上 绘制 正弦 、 余 弦 曲 线 

运行 程序 ， 效 果 如 图 1-9 所 示 。 

(3) 符号 畏 数 ezplot 

其 调用 格式 如 下 ;: 


ezplot(P[a b]) 


其 中 ，ezplot(f[a,b]): 绘 出 符号 函数 7 在 ~ 区间 的 图 形 。 
【 例 1-20】 符号 函数 的 绘图 示例 。 

yY=Sym( cos(X)); 

ezplot(y,[-2*pi2*pi]); % 画 出 x 在 -2*pi2*pi 之 间 的 y=cosx 的 图 形 
运行 程序 ， 效 果 如 图 1-10 所 示 。 
(4) 绘制 对 数 图 形 函 数 loglog、semilogx、semilogy 
其 调用 格式 如 下 : 


loglog(X, Y) 
semilogx(X, Y) 
semilogy(X, Y) 
其 中 ，loglog(X, Y): 对 x 轴 、?y 轴 的 刻度 用 常用 对 数值 〈 以 10 为 底 );，semilogx(X, Y): 
对 x 轴 的 刻度 用 常用 对 数值 ， 而 轴 为 线性 刻度 ，semilogy(X,Y): 对 》 轴 的 刻度 用 常用 对 数 
值 ， 而 x 轴 为 线性 刻度 。 
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图 1-9 例 1-19 图 形 图 1-10 例 1-20 图 形 


【 例 1-21】 绘制 对 数 图 形 示例 。 


x=|logspace(-1,2); 
loglog(x,10*#exp(X),-S); 
grid on; 


运行 程序 ， 效 果 如 图 1-11 所 示 。 
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图 1-1l 例 1-21 图 形 
(5) 图 形 修饰 与 控制 


axis squarei; % 将 图 形 设置 为 正方 形 

axis equal; %x,y 轴 单 位 刻度 相等 

title(' 字 符 串 );  % 图 形 标题 

axis([[xmin,xmax,yminymax]); 。”%x 轴 范 围 为 xmin~xmax,y 轴 范 围 为 ymin~ymax 
xlabel(' 字 符 串 ); 。 %x 轴 标 注 

ylabel(' 字 符 串 );  %y 轴 标 注 

text(x,yv" 字 符 串 )，% 在 (x,y) 处 标注 说 明文 字 


grid on; % 加 网 格 线 

grid o 作 % 消 除 网 格 线 

hold on; % 保 持 当前 图 形 

hold o 伍 % 解 除 hold on 命令 

legend('FirstySecond',n); % 对 一 个 坐标 系 上 的 两 幅 图 形 做 出 图 例 注解 


subplot(mn,p) 。 % 将 当前 窗口 分 成 下 行 n 列 区 域 ， 并 指定 在 p 区 绘图 
【 例 1-22】 图 形 修饰 与 控制 示例 。 


Xx=0:pi/60:2*pi; 

















subplot(221);plot(x.exp(-i*xX)); 
Subplot(222);fplot('log(x),[10,2e3]); 
subplot(212);plot(x,sin(x),:b',x,cos(X)，-r); 
jegend(sin(xX) ,cos(xX) 1); 


运行 程序 ， 效 果 如 几 1-12 所 示 。 
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图 1-12 例 1-22 图 形 


注意 : 第 二 行 语 名 exp(-i*x) 中 的 虚 部 被 忽略 ; 第 三 行 语 名 中 2e3 表示 2x 103， 不 能 用 
2*#e3 表示 ， 如 10 不 能 用 e5 表示 ， 而 用 le5 表示 ; 第 四 行 语句 subplot(212) 巧 妙 地 将 第 二 行 
整个 区 域 用 一 个 图 形 履 盖 。 


【 例 1-23】 将 正弦 曲线 0~/2 部 分 与 轴 包 围 的 封闭 图 形 填充 为 蓝 色 。 


X=0:pl/60:2*#pi; 
y=sin(X) 
X1=0:pi/60:pi/2; 
yl=sin(x1l); | 
plot(xy,-D); 

hold on; 

各 IK[xl,pi2],[y1,0]"b7); 


运行 程序 ， 效 果 如 图 1-13 所 示 。 








图 1-13 例 1-23 图 形 


(6) 特殊 二 维 图 形 


line([x1,x2],[yl,y2],color,[00 1]); % 在 (xly1)-(x2,y2) 之 间 画 一 条 蓝 色 直线 
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Polar(theta.nj; % 用 极 角 theta 和 极 径 r 画 出 极 坐 慰 图 形 
Pix(X); % 绘 制 饼 图 
bar(X); % 绘 制 条 形 图 
stairs(X,Y); % 绘 制 梯形 图 


2. 绘制 三 维 图 形 
《1) 绘制 三 维 曲线 图 函数 plot3 、comet3 、fill3 
plot3 的 调用 格式 如 下 : 


plot3(X,Y,Z,S) 


其 中 ，plot3CXYZ,S): 当局 素 2 均 为 同 维 向 量 时 ， 则 plot3 描 出 点 站 D，XD，ZD 依 
次 相连 的 空间 曲线 ; 若 和 存 均 为 同 维 矩阵 ， 世 区 Z 每 一 组 相应 列 向 量 为 举 标 画册 一 条 曲 
线 。$ 为 'color-linestyle-marker 控 制 字符 。 

【 例 1-24】 绘制 螺旋 线 。 


t0:pi/60:10*pi; 
X=Sin(t); 
Yy=cos(U; 
plot3(x,y,b'*-P); 
grid on; 


运行 程序 ， 效 果 如 图 1-14 所 示 。 
comet3 的 调用 格式 如 下 : 





comet3(x, y, Z) 
其 中 ，comet3(x, y z): 显示 一 个 彗星 通过 数据 x*, 凡 z 确定 的 二 维 曲线 。 
【 例 1-25】 数 comet3 示例 。 


全 -20*pi:pi/50:20*#pi; 
comet3(Sin(t)j,cos(t),0) 


运行 程序 ， 效 果 如 图 1-15 所 示 。 





图 1-14 例 1-24 图 形 图 1-15 例 1-25 图 形 
可 见 到 彗星 头 〈 一 个 圆圈 ) 沿 着 数据 指定 的 轨道 前 进 的 动画 图 像 ， 慧 星 轨 道 为 整个 函数 


所 画 的 螺旋 线 。 








fill3 的 调用 格式 如 下 : 
fill3(X,Y,Z:C) 


其 中 ，fill3CX,YZ,C): 填充 由 参数 Y，Y，Z 确定 的 多 边 形 ， 参 数 C 指定 颜色 。 
【 例 1-26】 fill3 函数 示例 。 


clear al]; 

x=[2 12;971;670]; 
y=[170;479;043]; 
Z=-[186;796;161]; 
c=[100;010;001]; 
们 13(xy,z,c); 

grid on; 


运行 程序 ， 效 果 如 疼 1-16 所 示 。 
(2) 绘制 三 维 网 格 网 函数 mesh 、meshc、 图 1-16 例 126 图 形 





meshz、meshgrid 


mesh、meshc 和 meshgrid 的 调用 格式 如 下 ; 


mesh(X,Y,Z,C) 
meshc(X,Y,Z,C) 
meshz(X,Y,Z,C) 


其 中 ，mesh(X,YZ,C): 画 出 颜色 由 C 指定 的 三 维 网 格 图 :meshc(X,YZ,C): 画 出 带 有 等 


高 线 的 三 维 网 格 网 ， meshz(X,YZ,C): 画 出 带 有 底座 的 二 维 网 格 图 。 若 苑 与 了 均 为 向 量 ， 
/=lengthC0，m=length( 力 ，Z 必须 满足 [mm]=size(Z， 则 空间 中 的 点 CKPD，KD，2Z 人 7 为 所 画 
曲面 网 线 的 交点 ， 头 对 应 于 Z 的 列 ， 了 对 应 于 Z 的 行 。 若 轴 和 思 2Z 均 为 同 维和 矩阵 ， 则 空间 中 
的 点 CXD 六 7 人 万 2 六 为 所 画 曲 面 的 网 线 的 交点 。 和 宛 阵 C 指定 网 线 的 颜色 ，MATILAB 对 算 
阵 C 中 的 数据 进行 线性 处 理 ， 以 便 从 当前 色 图 中 获得 有 用 的 颜色 ， 大 C 缺 省 ， 网 线 疗 色 和 
曲面 的 高 度 Z 相 匹配 。 


在 绘制 三 维 图 形 时 ， 常 用 到 函数 meshgrid， 其 功能 是 生成 二 元 轴 数 z= jx 站) 中 x-y 平 


面 上 的 和 矩形 定义 域 中 的 数据 点 甜 阵 区 和 也 。 


[X,Y]= meshgrid(x,y): 输入 向 量 x 为 x 一 平和 上 x 轴 的 值 向量 为 xx 一) 平面 上 》 轴 


的 值 ， 输 出 矩阵 X 为 x 一 平面 上 数据 点 的 横 坐 标 值 ， 输 出 征 阵 了 为 一》 平面 上 的 数据 点 
的 纵 坐 标 值 。 





【 例 1-27】 meshgrid 函数 示例 。 


>>X=1:4; 

y=1:5; 
[X,Y]j=meshgrid(x.y) 
X 义 = 
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tn 三 一 
n 上 有 一 
tn 请 iD 一 
tn 记忆 一 


【 例 1-28】 绘 出 带 有 底座 的 马鞍 面 。 


X=-8:8; 

y=-8:8; 
[X,Y]=meshgrid(x,y); 
Z=(X.^2/4^2-Y.^2/1S^2); 
meshz(X,Y,Z); 


运行 程序 ， 效 果 如 图 1-17 所 示 。 
(3) 绘制 三 维 曲面 图 surf、surfe 函数 
其 调用 格式 如 下 : 


SU 人 X,Y,Z,C) 图 1-17 例 1-28 图 形 
Surfc(X,Y,Z,C) 
其 中 ，surfX,YZ,C): 画 出 颜色 申 C 指定 的 三 维 曲面 图 ，surfe(X,YZ,C): 画 出 带 有 等 高 
线 的 三 维 曲面 图 。Surf 与 mesh 命令 的 用 法 和 使 用 格式 相同 ， 不 同 之 处 在 于 ， 绘 得 的 图 形 是 
一 个 彩色 曲面 而 不 是 彩色 网 格 。C 缺 省 时 ， 数 据 Z 为 曲面 高 度 ， 同 时 也 是 颜色 数据 。 
【 例 1-29】 绘 出 带 有 等 高 线 的 理想 气体 状态 方程 曲面 (v= naTR ，7=2mol)。 


R=8.31; 

n=2; 

p=(1:20)# le5; 
v=(1:20)# le-3; 
[P,V]=meshgrid(p,V); 
T=P.*V/n/R; 
surfc(P,V,T); 
view(45,45); 


运行 程序 ， 效 果 如 图 1-18 所 示 。 
〈4) 绘制 三 维 旋转 曲面 图 cylinder 函数 
其 调用 格式 如 下 : 

[X,Y,Z]=cylinder(r D) 


其 中 ，[X,YZ]=cylinder(tn m): 返回 母线 向 量 为 >、 高 度 为 1 ( 见 图 1-19 和 图 1-20) 的 旋 
转 曲 面 x，)”， 2z 轴 的 坐标 值 ， 旋 转轴 为 z 轴 ， 旋 转 曲 面 的 圆周 有 指定 的 7 个 距离 相同 的 点 。 








图 1-18 例 1-29 图 形 








用 户 可 以 用 命令 surf 或 命令 mesh 画 出 旋转 的 曲面 图 像 。 
2 2 
【 例 1-30】 绘制 一 个 旋转 抛物 面 z = 代 二 盖 . 


Z0:20; 
R=(60*z).^(1/2); 
[X,Y,Z]=cylinder(R,30); 
mesh(X,Y,Z); 


运行 程序 ， 效 果 如 图 1-19 所 示 。 
《5$) 绘制 三 维 球 面 图 函数 sphere 
其 调用 格式 如 下 : 


[X,Y,Z]jF=sphere(n) 


其 中 ，[X,YZ]=sphere(mD): 生成 三 维 直 角 坐 标 系 中 的 单位 球体 坐标 。 该 单位 球体 有 jx 
个 面 ， 该 命令 没有 画图 ， 只 是 返回 和 矩阵， 用 户 可 以 用 命令 surf 或 mesh 画 出 球体 。 
【 例 1-31】 绘制 三 维 球面 图 示例 。 


Z=0:25; 
R=(60*z).A(1/2); 
[X,Y,Z]=cylinder(R,30); 
[X,Y,Z]=sphere; 
mesh(X,Y,Z) 


运行 程序 ， 效 果 如 图 1-20 所 示 。 





图 1-19 例 1-29 图 形 图 1-20 例 1-30 图 形 
1 二 | MATLAB 数据 类 型 及 输出 输入 | 


1.， 数据 类 型 


MATILAB 的 数据 类 型 包括 字符 串 、 数 值 型 〈 整 型 、 单 精度 、 双 精度 和 稀疏 矩阵 )、 单 元 
数组 、 结 构 、Java 类 和 函数 句柄 。 

(1) 字符 型 (Char) 和 字符 串 〈String) 

字符 型 数组 的 元 素 是 以 16 位 无 字符 号 整数 表示 的 Unicode ASCII 码 。 其 中 的 1xz 字符 
型 数组 ， 如 a='good'， 又 称 为 字符 串 。 字 符 型 数组 除 用 符号 的 方法 ， 也 可 以 用 char 命令 创 
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建 ， 如 a=char('good")。 
《2) 数值 型 
数值 型 包括 整 型 、 单 精度 、 双 精度 和 稀疏 矩阵 等 。 其 中 ， 整 型 包括 8 位 、16 位 和 32 
位 的 有 符号 和 无 符号 整数 型 。 在 MAITLAB 中 ， 整 型 要 转化 成 双 精 度 后 才能 进行 数学 运 电 


算 。 单 / 双 精 度 浮 点 型 意义 与 其 他 计算 机 高 级 语言 一 样 。 稀 疏 和 矩阵 是 一 种 特殊 窟 阵 ， 它 含有 
大 量 的 零 元 素 。MATLAB 只 对 矩阵 中 的 非 零 元 素 进 行 存储 和 计算 ， 可 以 用 命令 sparse 创建 
稀疏 矩阵 。 

(3) 单元 数组 


单元 数组 是 MATLAB 数组 的 一 种 特殊 数据 类 型 。MATLAB 中 ， 和 巴 阵 或 数组 只 能 保存 相 
同类 型 或 相同 大 小 的 数据 ， 而 单元 数组 允许 把 不 同类 型 的 MATLAB 数组 保存 在 不 同 的 单元 
中 。 单 元 数组 的 每 一 个 元 素 称 为 一 个 单元 〈Cell)。 

单元 数组 有 两 种 创建 方式 ， 一 种 是 单元 数组 的 各 个 元 素 直 接 赋值 ， 另 一 种 是 先 用 cell 函 
数 为 单元 数组 分 配 空 间 ， 然 后 再 进行 赋值 。 

【 例 1-32】 单元 数组 示例 。 


a(l,] 广 {2 2;1 1}; 
a(],2)={[0 0]}; 


al(2,1)={rcbcb'; 
a(2,.2)={3Hj}; 
>> 8 
a= 
[2x2 double] [1x2 doubie] 
"cbcb' [3.0000 + 1.0000j 
>> afl,1} 
ans = 
2 2 


1 1 
>> b=a{2,1} % 将 单元 数组 值 赋 给 b 
b= cbcb 
>> bb=cell(2.2); 。% 先 定义 ,然后 再 赋值 
>> celldisp(a) % 显 示 单 元 数组 的 完整 内 容 
afl,1} = 
2 2 
1 1 
af2,1} = cbcb 
af12} = 
0 0 
af2,2} = 
3.0000 + 1.0000i 


(4) 结构 

结构 〈Structure) 也 可 以 保存 不 同类 型 的 数据 ， 它 由 一 组 被 称 为 域 (Fields) 的 变量 
构成 ， 数 据 存 于 域 中 。 

结构 的 创建 方法 也 有 两 种 ， 一 种 是 直接 赋值 ， 另 一 种 是 利用 struct 函数 。 例 如 : 








>> group.name='A 组 '; 

group.num=' 第 五 '; 

group.score=[70 83 92 100]; 
group.subject=[" 体 能 ', 身 高 "体重 ,营养 ']; 
group % 显 示 内 容 


group = 
name:'A 组 
num: ' 第 五 ' 
score: [70 83 92 100] 
subject: ' 体 能 身高 体重 营养 ' 
>> group(2).name='C 组 。 % 增 加 数组 ,在 结构 后 击 加 下 标 
group(2).num=' 第 六 '; 
group(2).score=[75 82 91 99]; 
group(2).subject=[" 体 能 ,身高 ,体重 ,营养 ]; 
group(2) % 显 示 新 增 内 容 
ang 二 
name:'C 组 ' 
num: "第 六 
Score: [75 82 91 99] 
subject': ' 体 能 身高 体重 营养 
>> group 
group = 
1x2 struct array with fields: 
name 
num 
Score 
Subject 


struct 命令 的 调用 格式 如 下 : 
Struct_array_name=struct(fieldl',valuesl'， eld2values2'.) 


其 中 ，'ieldl'，'\field2',，… 代 表 域 名 〈 成 员 变量 ); "aluesl'，'values2'，… 代 表 对 应 的 域 
值 ， 其 值 必须 是 大 小 相同 的 单元 数组 、 数 量 单元 或 单个 数值 。 

(5) 函数 句柄 

函数 句柄 也 是 一 种 数据 类 型 。 创 建 一 个 函数 句柄 ， 可 用 寺 保 存 函数 的 所 有 信息 ， 以 便 将 
来 对 它 进 行 调用 。 函 数 句 柄 可 作为 参数 传递 给 其 他 函数 ， 并 与 feval 一 起 使 用 ， 以 调用 该 函 
数 句 柄 所 属 的 函数 。 

创建 函数 句柄 的 调用 格式 如 下 : 

funhandle=@function_ name 

其 中 ，fnnction_name 为 用 户 指定 的 函数 名 ;funhandle 为 返回 的 函数 句柄 ， 可 被 另外 的 
函数 调用 。 

2.， 数据 输出 

(1) fprintf 函数 





， ITEITEEEERT 


此 命令 可 按 规定 格式 将 数据 输出 到 屏幕 或 写 格 式 化 数据 到 文件 中 。 例 如 ， 
fprintflto%s\tx=%Sd, \ty=9%8.2f, x, y) 函 数 ， 它 包括 两 部 分 ， 即 单 引号 括 起 来 的 部 分 及 单 引号 后 
面 的 变量 表 。 单 引号 内 包含 一 些 控制 符 ， 用 于 控制 后 面 变 量 表 中 各 变量 的 输出 格式 。 例 如 ， 
“At” 表示 使 光标 移动 一 个 制 表 位 。“%” 后 跟 “s”"、“d” 或 “f” 用 于 控制 变量 表 中 各 变量 的 “人 人) 
输出 数据 类 型 及 所 占 的 空格 数 。 例 如 ,“%” 表 示 变 量 按 字 符 串 类 型 输出 ;“%5d” 表 示 按 整 量 
型 类 型 输出 ， 且 共 占 5 个 空格 ;“%8.2f” 表 示 按 浮 点 类 型 输出 ， 且 共 占 8 个 空格 。 其 他 的 非 
控制 符 按 原样 显示 。 

(2) disp 命令 

此 命令 将 结果 答 出 到 屏幕 。 

3. 数据 输入 

(1) 利用 M 文件 产生 数据 文件 

利用 文本 编辑 器 可 产生 一 个 扩展 名 为 *.m 文件 ， 用 于 保存 已 知 参数 。 调 用 此 文件 ， 就 可 
将 有 关 变 量 及 其 数据 直接 调 入 MAILAB 内 存 中 。 

(2) fscanf 命令 

此 命令 可 从 磁盘 或 久 件 中 读 取 格 式 化 数据 ， 所 用 的 控制 符 及 用 法 与 fprintf 函数 类 似 。 

(3) input 命令 

此 命令 提示 用 户 从 键盘 中 输入 命令 中 提示 的 变量 的 值 。 
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关系 运算 符 主要 用 来 比较 数 与 数 、 乞 阵 与 矩阵 之 间 的 大 小 ， 并 返回 真 (用 “1” 表 示 ) 
或 修 (用 “0” 表 示 )。 基 本 的 关系 运算 符 主要 有 6 种 : > (大 于 )、< (小 于 )、〈 大 于 或 等 
于 )、 乏 〈 小 于 或 等 于 )、== (等 于 )、~ = (不 等 于 )。 

【 例 1-33】 关系 运算 示例 。 









>> a=2<4 % 小 于 运算 

& 一 ] 

>> b=4>=7 % 大 于 或 等 于 运算 
b= 0 

>> c=4==3 % 等 于 运算 

C 三 0 

>> d=4-~=3 % 不 等 于 运算 

d= 1 


轴 辑 运算 符 有 4 种 : 与 〈&)、 或 (| )、 非 (~)、 蜡 或 (xor)。 在 变量 中 ， 非 零 数 的 逻辑 
量 为 “ 真 "，0 的 逻辑 量 为 “ 假 ”， 逻 辑 运 算 结 果 以 “1” 表 示 “ 真 ” 以 “0” 表 示 “ 假 ” 
【 例 1-34】 逻辑 运算 示例 。 


>> a=3&0 %“ 与 ”运算 ， 两 个 真 值 间 的 结果 为 1， 覃 则 为 0 
al=3I0 %“ 或 ”运算 ， 有 - -个 值 为 真 或 两 个 值 都 为 真 ， 则 结果 为 1 








a2=xor(4,3) %“ 措 或 ”运算 ， 只 有 一 个 值 为 真 ， 则 结果 为 1， 否则 为 0 
a3 一 -5 %“ 非 ” 运算 ， 真 变 假 ， 假 变 真 
=-0 


运行 结 程序 ， 输 出 如 下 ; 





sin(x)，sum(4d) 都 是 MATLAB 内 髓 的 库 了 图 数 ， 可 以 反复 调用 ， 十 分 方便 。 用 户 在 实际 工 
作 中 ， 往 往 需要 编制 自己 的 函数 ， 以 实现 计算 中 的 参数 传递 和 函数 的 反复 调用 。 建 立 函 数 文 
件 的 方法 如 下 。 


function[y1, y2,.]= 依 xI,x2.) 


其 中 , 太 是 函数 名 ;xl1，x2 是 输入 变量 ，y1， 妈 是 输出 变量 。 
【 例 1-35】 计算 一 个 向 量 所 有 元 素 的 平均 值 。 


% 定 义 aver.m 函数 

function y=aver(x) 

% 计算 向 量 苑 素 的 平均 值 

% aver(x) 为 一 个 向 量 x 元 素 的 平均 值 

% 如 果 没 有 输入 向 量 ， 程 序 将 报错 

[m,n]=size(x); 

这 ~((m 一 TIn 一 TD))Km 一 1 & n 一 1) 
error(please input a vector) 

end 

y=sum(xJlength(x) % 计 算 


这 个 例子 包含 了 典型 的 M 函数 的 各 个 部 分 : 函数 定义 行 、H1 行 、 帮 助 文档 、 函 数 主体 
利 注释 。 

冰 数 编辑 完成 后 ， 将 文件 保存 为 averm。 程 序 中 要 求 有 一 个 输入 参数 ， 在 命令 行 中 输入 
z 个 向 攻 并 赋值 : 


>> Z1:199; 

Z1:199 是 定义 函数 的 输入 参数 ， 输 入 文件 名 调用 此 函数 ; 
>> avyer(Z) 

运行 程序 ， 输 出 如 下 : 


ans= 100 
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注意 : @ 输入 变量 用 () 括 起 来 ， 给 出 变量 用 [] 括 起 来 。 

@@ 函数 名 和 文件 名 必须 相同 。 函 数 名 开头 必须 用 字母 ， 区 分 大 小 写 。 

@ 程序 必须 以 function 开始 ， 第 二 行 以 后 可 加 入 注释 行 或 运算 语 甸 。 

Q@ M 函数 文件 可 以 调用 其 他 一 般 的 M 文件 ，M 函数 文件 可 以 反复 调用 自己 。 
@@ 用 内 联 函 数 命令 inline 也 可 实现 M 函数 文件 的 大 部 分 功能 。 


【 例 1-36】 内 联 函 数 示例 。 


>> 名 =inline('2*x^2+2+x+10)  % 中 认 x 是 输入 参数 
fv=inline('vo+a*tvaytvvo);  % 建 立 内 联 函 数 fv, 其 沾 vo,at 是 变量 
v=fv(4,5,2) % 求 a=4, 二 5,vo=2 时 函数 fv 的 值 
运行 程序 ， 输 出 如 下 : 


所 一 

Inline function: 

人 包 (x) = 2*#*X^2 二 2#X 十 ] 
V= 三 22 


123 | 

单 击 【File】 菜 单 下 的 【New】 子 菜单 中 的 【M-file】 命 令 〈 或 用 桌面 快捷 键 )， 进 入 文 
本 编辑 窗口 ， 输 入 程序 即 吕 ， 开 头 可 任意 输入 MATLAB 语句 。 输 完 程序 后 ， 单 击 “ 保 存 ” 
按钮 ， 在 对 话 框 中 输入 文件 名 ， 文 件 名 开头 必须 是 字母 。 

运行 M 文件 有 以 下 几 种 方法 : 在 命令 窗口 输入 文件 名 并 按 〈Enter) 键 ; 单 击 【File】 菜 
单 下 的 【Open】 命 令 ， 在 弹出 的 【Open】 对 话 框 中 单 击 *m (文件 名 )， 打 开 该 文件 编辑 窗 
口 ， 再 单 击 【Debug】 菜 单 下 的 【Run funlm】 命 令 即 可 。 


程序 控制 语句 
1. 半 条 件 语 句 
格式 一 : 
if (条 件 式 ) 

条 件 块 请 名 组 


end 


例如 ， 同 循环 语句 举例 相同 的 求 和 功能 用 条 件 转移 语句 实现 ， 其 程序 如 下 。 


msum=0; 
for 二 1:120 
i 廊 msum>=S0S0) 
i 





ImSsum 
break; 
end 











格式 二 : 


这 《条 件 式 ) 
条 件 块 语 多 组 1 
else 
条 件 块 语 包 组 2 
end 
格式 二 : 
让 (条 件 式 1) 
条 件 块 语 名 组 1 
elseif 条 件 式 2 
条 件 块 语 多 组 2 
end 
注意 : Q@ 在 格式 一 中 ， 表 达 式 值 非 0 时 ， 执 行 下 面 语 名; 否则 跳 过 ， 执 行 end 后 面 的 语句。 
Q@ 在 格式 二 中 ， 表 达 式 值 非 0 时， 执行 语 揣 1; 否则 执行 语 负 2。 
@@ 在 格式 三 中 ， 表 达 式 值 非 0 时 ， 执 行 语 向 寺 并 终止 证 语 身 ; 否则 计算 表达 式 2 的 
值 ， 依 此 类 推 。 


【 例 1-37】〗 比较 数 的 大 小 。 


a=3;b=6; 

ifa>b % 条 件 表达 式 1 
max=ai; % 语 句 1 

elseif a 一 b % 条 件 表达 式 2 
max=' 两 数 相等 '; % 语 人 多 2 

else 
max=b; % 语 句 3 
disp([' 最 大 值 为 ,num2str(max)]); 

end 


注意 : 证 和 end 必须 成 对 使 用 ; disp 的 使 用 方法 主要 有 disp('...]) 和 disp(['..]) 两 种 。 


2. for 循环 语句 
格式 : 


for 循环 变量 = 表达 式 1， 表 达 式 2: 表达 式 3 
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循环 语 名 组 


end 


注意 : 循环 次 数 一 般 是 给 定 的 ， 除 非 用 其 他 语句 将 循环 提前 结束 (如 break ); 表达 式 是 
一 个 向 量 ; for 语句 一 定 要 有 end 作为 结束 标志 ; 逢 环 语句 中 的 “; ”可 防止 中 间 结 果 输 出 ; 亿 
循环 体 中 ， 可 以 多 次 谱 套 forend 结构 体 ， 但 会 影响 运算 速度 。 


【 例 1-38】 利用 forend 循环 语句 求 出 100 一 200 之 间 的 所 有 素数 。 


for m=101:2:200 
k=fix(sqrt(m)); 
for i=2:k+1 
让 rem(m, iD 一 0; 
break; 
end 
end 
记 这 =k+1 
disp(int2strtm)); 
end 
end 


3. while 循环 语句 
格式 : 
while〈 条 件 式 ) 
循环 体 条 件 组 


end 
注意 : 表达 式 一 般 由 逻辑 运算 和 关系 运算 组 成 。 若 表达 式 的 值 非 0， 继 续 循环 ; 若 表达 
式 的 值 为 0， 中 止 循环 。while 语句 一 定 要 有 end 作为 结束 标志 。 


【 例 1-39】 用 while-end 循环 语句 求 1 一 100 之 间 整 数 的 和 。 


>> Sum=0; 

去 1; 

while i<=100 
Sum=SuUm+i; 
j=i+1; 

end 

Sum 


运行 程序 ， 输 出 如 下 : 
Sum 三 3050 


4. Switch 分 支 选 择 语 名 
这 种 语句 是 多 分 支 选 择 语 句 ， 虽 然 有 时 可 以 用 诈 语 名 的 多 层 嵌 套 来 完成 ， 但 没有 switch 


语句 显得 简单 明了 。 








格式 : 


switch ”表达 式 
case 常量 表达 式 1 
语句 块 1 
case 常量 表达 式 2 
语句 块 2 


case 常量 表达 式 n 
otherwise 
语 多 块 n+l 
end 


注意 : @ switch 后 面 的 表达 式 可 以 为 任意 类 型 。 

@ 当 表 达 式 的 值 与 case 后 面 的 常量 表达 式 的 值 相等 时 ， 就 执行 case 后 面 的 语句 块 。 
@ case 后 面 的 常量 表达 式 可 以 有 多 个 ， 也 可 以 是 不 同类 型 。 

@ 每 次 只 执行 一 个 语句 块 ， 执 行 完 一 个 语句 块 就 退出 switch 语句 。 


例如 : 


Switch var 
casef'abc',12? 
disp(' 第 一 种 情况 ); 
Case f1,2,4.www }， 
disp( 第 二 种 情况 
case {6,.7.8.,MATLAB'"}， 
disp( 第 三 种 情况 ); 
otherwise 
disp(' 意 外 的 情况 ); 


end 
注意 : case 后 面 是 介 ， 而 不 是 ()， 运 行 结果 为 : 
var=4， 显 示 第 二 种 情况 。 
var='abc'， 显 示 第 一 种 情况 。 
var=13， 显 示意 外 的 情况 。 


编程 要 点 
为 了 尽量 加 快 MATLAB 程序 的 运行 速度 ， 编 程 时 应 注意 以 下 要 点 。 


1) 尽量 避免 使 用 循环 ， 而 使 用 向 量 或 矩阵 。 
2) 如 果 要 使 用 循环 ， 在 循环 语句 前 也 要 尽量 对 向 量 、 矩 阵 或 数组 预先 用 ones 或 zeros 





函数 进行 内 存 分 配 。 


3) 尽量 使 用 MATLAB 的 内 部 函数 或 工具 箱 函数 。 绝 大 多 数 常 见 的 数学 计算 都 可 以 在 


MATLAB 中 找到 相应 的 函数 命令 。 





在 实际 中 ， 可 以 通过 tic〈 启 动 秒表 ) 和 toc〈 停 止 秒表 ) 测试 程序 运行 所 花费 的 时 间 。 
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第 2 章 概率 与 数理 统计 基本 概念 


概率 论 主要 研究 随机 现象 与 其 在 数量 方面 的 规律 性 ， 是 数学 的 一 个 重要 分 支 学 科 ， 现 
已 广泛 地 应 用 于 自然 科学 和 社会 人 文科 学 的 各 个 领域 ， 成 为 处 理 信 息 、 制 定 决策 的 重要 理 
论 基 础 。 

数理 统计 是 研究 和 解释 随机 现象 统计 规律 性 的 一 门 数学 学 科 。 随 机 现象 是 指 在 个 别 试验 
中 有 可 能 发 生 ， 也 有 可 能 不 发 生 ， 呈 现 不 确定 性 ， 而 在 大 量 重复 试验 中 又 呈现 统计 规律 性 的 
一 类 现象 。 人 们 在 科学 实践 活动 中 ， 经 常 接触 到 大 量 的 随机 现象 ， 因 此 在 科学 研究 中 应 用 数 
量 统计 方法 受到 了 人 们 的 普遍 重视 。 


2.1 随机 事件 及 其 概率 
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自然 界 有 许多 现象 ， 完 全 可 以 预言 它们 在 一 定 条 件 下 是 否 会 出 现 。 

例如 ,“ 同 性 电荷 互相 排斥 和 “在 一 个 标准 大 气压 下 ， 水 加 热 到 100C 时 必定 沸腾 ”等 
是 一 定 会 出 现 的 ， 而 “同性 电荷 互相 吸引 六 “在 一 个 标准 大 气压 下 ， 水 加 热 到 100C 时 不 沸 
腾 ” 等 是 必然 不 会 出 现 的 。 

在 一 定 条 件 下 必然 出 现 的 现象 称 为 必然 事件 ， 记 为 2 。 在 一 定 条 件 下 必然 不 出 现 的 现 
象 称 为 不 可 能 事件 ， 记 为 人 。 显 然 ， 必 然 事 件 的 反面 就 是 不 可 能 事件 。 

然而 自然 界 还 有 许多 现象 ， 它 们 在 一 定 的 条 件 下 可 能 出 现 ， 也 可 能 不 出 现 。 

例如 ,“ 投 搓 一 枚 1 元 硬币 〈 正 面向 上 ) 沁 “明天 平均 气温 为 10C” 等 就 可 能 出 现 ， 也 
可 能 不 出 现 。 

粗略 地 讲 ， 在 一 定 条 件 下 可 能 出 现 ， 也 可 能 不 出 现 的 现象 称 为 随机 事件 ， 或 简称 为 事 
件 ， 记 为 4，B，C，… 

为 了 方便 起 见 ， 后 面 将 必然 事件 Q 和 不 可 能 事件 纪 也 看 做 随机 事件 。 

【 例 2-1】 一 次 投掷 两 枚 1 元 硬币 ， 则 ; 

4=“ 两 枚 都 是 正面 朝 上 只 

有 B=“ 两 枚 都 是 正面 朝 下 ” 

C =“ 一 枚 正面 朝 上 ， 一 枚 正面 朝 下 ” 

刀 =“ 至 少 有 一 枚 正面 朝 下 ”。 
都 是 随机 事件 。 

【 例 2-2】 设 有 12 件 产品 ， 其 中 9 件 正品 ，3 件 次 品 。 现 任意 抽取 5 件 ， 则 ; 

4=“5 件 都 是 正品 ”。 

有 =“ 至 少 有 1 件 次 品 ” 











C=“5 件 都 是 次 品 ”。 
万 = “至 少 有 ] 件 正 品 ”。 
都 是 随机 事件 ， 而 C 为 不 可 能 事件 ， 忆 则 为 必然 事件 。 


对 于 随机 事件 ， 在 一 次 试验 中 是 奋发 生 ， 虽 然 不 能 预先 知道 ， 但 是 它们 在 一 次 试验 中 发 
生 的 可 能 性 是 有 大 小 之 分 的 。 

比如 ， 例 2-1 中 的 随机 事件 4 和 随机 事件 有 发 生 的 可 能 性 是 一 样 的 ， 并 且 它 们 比 随机 
事件 C 发 生 的 可 能 性 要 小 ， 既 然 各 随机 事件 发 生 的 可 能 性 有 大 有 小 ， 自 然 使 人 想到 该 用 一 个 
数字 P(4) 来 标志 随机 事件 4 发 生 的 可 能 性 ， 较 大 的 可 能 性 用 较 大 的 数字 来 标志 ， 较 小 的 可 
能 性 就 用 较 小 的 数字 来 标志 。 这 个 数字 PC4) 就 称 为 随机 事件 4 的 概率 。 

然 布 ， 对 于 已 给 的 随机 事件 4， 到 底 应 该 用 哪个 数字 来 作为 它 的 概率 呢 ? 也 就 是 说 ， 怎 
样 从 大 小 上 来 规定 P(4) 呢 ? 这 决定 证 随机 事件 4 的 特殊 性 ， 不 能 一 概 而 论 。 

对 和 随机 事件 4， 如 果 在 一 定 条 件 下 的 严 次 试验 中 出 现 了 次 ， 则 称 w 为 随机 事件 4 在 
寻 次 试验 中 出 现 的 频数 ， 并 称 此 值 : 


_ 几 _ 
如 (4)= 广 (2-1) 


为 随机 事件 4 在 寺 次 试验 中 出 现 的 频数 。 如 果 当 试验 次 数 半 逐渐 增 大 时 ， 频 率 万 (4) 在 一 个 
常数 忆 附近 摆动 ， 而 且 逐 渐 稳 定 于 这 个 常数 P， 则 称 这 种 现象 为 频率 的 稳定 性 ， 而 称 常数 己 


为 频率 稳定 值 。 
例如 ， 在 一 定 条 件 下 做 投掷 一 枚 1 元 硬币 的 试验 ， 规 定 如 下 ; 
“硬币 放 在 手心 上 ， 用 一 定 的 动作 向 上 抛 ， 使 硬币 自由 地 落 在 地 面 上 …'…”。 这 些 条 件 也 


称 为 条 件 组 S。 于 是 ， 在 条 件 组 8 的 一 次 实现 下 ， 随 机 事件 4 是 否 发 生 是 不 确定 的 ， 然 而 这 
只 是 问题 的 一 方面 ， 当 条 件 组 S 大 量 重 复 实 现时 ， 随 机 事件 4 发 生 的 次 数 就 能 体现 出 一 定 的 
规律 性 ， 事 实 上 约 占 总 试验 次 数 的 一 半 。 这 可 以 写成 

《2-2) 





即 随机 事件 4 具有 频率 的 稳定 性 ， 且 其 频率 稳定 值 为 了 。 
用 MATILAB 实现 的 投掷 毁 子 实验 。 | 
用 计算 机 模拟 100 次 投掷 一 枚 均匀 人 般 子 的 实验 结果 ， 并 写 出 相应 的 MATLAB 命令 代码 。 
在 命令 窗口 中 输入 : 
>> unidrmd(6,1,100) 


输出 如 下 : 


ans 一 
Columns 1 through 18 

56 1 64124 6 6 1 6 6 3 5 1 55 
Columns 19 through 36 
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2 
Columns 37 through 54 

和 2 1343 
Columns 55 through 72 

FE 机 2 
Columns 73 through 90 


2 633224335446 2 55 3 14 
Columns 91 through 100 
1 1 4 5$ 6 ] 4 3 1 了 3 


模拟 结果 介 于 1 一 6 之 间 ， 与 掷 出 般 子 实验 结果 相对 应 。 
而 在 历史 上 ， 有 些 人 曾 做 过 成 千 上 万 次 投掷 硬币 的 试验 。 表 2-1 列 出 了 其 试验 记录 。 


表 2-1 硬币 试验 记录 





从 表 2-1 中 容易 看 出 ， 投 搓 次 数 越 多 ， 频 率 越 接近 0.5。 

人 类 的 大 量 实践 证 明 ， 在 实际 中 所 遇 到 的 随机 事件 ， 一 般 都 具有 频率 的 稳定 性 ， 因 此 ， 
所 谓 某 事件 发 生 的 可 能 性 的 大 小 ， 在 数量 上 可 以 用 “频率 稳定 值 ”来 刻画 。 

定义 2-1 在 一 组 不 变 的 条 件 8 下 ， 随 机 事件 4 的 频率 稳定 值 p 就 称 为 随机 事件 4 在 条 
件 组 S 下 发 生 的 概率 ， 记 为 PL4) ， 即 


PC)=p (2-3) 
由 于 频率 万 (4) 总 介 于 0 一 1 之 间 ， 因 而 由 概率 的 定义 2-1 知 ， 对 任何 随机 事件 4 有 
0< PC)<1 (2-4) 
而 对 必然 事件 2 及 不 可 能 事件 纪 ， 则 显然 有 
PLO)=1，P(O) =0 (2-5) 


【 例 2-3】 计算 机 模拟 1000 次 投掷 一 枚 均匀 骨 子 的 实验 结果 。 对 于 i=12.…,10， 以 及 
i=350100 ， 分 别 写 出 前 zx10 次 各 个 结果 出 现 的 频率 ， 观 察 频 率 随 实验 次 数 增加 的 变化 规 
律 ， 并 写 出 完成 上 述 任务 的 MATLAB 命令 代码 。 

在 MATLAB 命令 行 中 ， 输 入 以 下 代码 : 


>> x=unidrnd(6,1000,1);y=x(1:20) 

fl=sum([y 一 1y 一 2,y= 一 3,y 一 4.y 一 S%,y 一 6])/10, 
y=x(1:20) 

人 =sum([y 一 1y 一 2,y 一 3,y 一 4y 一 5.y 一 6])/20; 
y=x(1:30) 

人 =sum(y 一 ly 一 2.y==3,y 一 4,y 一 9,y 一 6])/30; 
y=x(1:40) 
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似 =sum([y= 一 1Ly 一 2,.y 一 3,y 一 4.y 一 9.y 一 0])/40; 








y=x(1:50) 

人 =sum([y 一 1,y 一 2,.y 一 3.y 一 4.y 一 和.y 一 6])/50; 
y=x(1:00) 

人 =sum([y 一 1.y 一 2,y 一 3,y 一 4,y 一 3.y 一 0])600; 
y=Xx(1:70) 

全 =sum([y==1,y 一 2,y 一 3,y 一 4,y 一 9,y 一 0])70; 
y=x(1:80) 

f=sum([y 一 1,y 一 2,y 一 3,y 一 4.y 一 5,y 一 6])/80; 
y=Xx(1:90) 

色 =sum([y 一 1,y 一 2.y 一 3.y 一 4,y 一 9,y 一 0])/90, 
y=x(1:100) 

所 0=sum([y 一 1y==2,y 一 3,y 一 4,y=-S9,y= 一 0])/100; 
y=x(1:300) 

名 0=sum([y 一 1Ly 一 2,y 一 3,y 一 4,y 一 9,y 一 0])/300; 
y=X 


人 00=sum([y 一 1,y 一 2,y==3,y 一 4,y==-$.y 一 6])1000; 


表 2-2 列 出 了 最 终 的 频率 计算 结果 。 从 该 表 中 可 以 看 出 : 随 着 实验 次 数 的 增加 ， 欣 出 的 
各 个 点 数 的 频率 接近 于 6 0 即 频率 随 着 实验 次 数 的 增加 而 稳定 于 概率 值 。 


表 2-2 模拟 1000 次 投掷 均匀 骨 子 实验 的 频率 统计 结果 


模拟 次 数 和 


0 | as | aa | aaa | am | ua | aa 
本 本 本 EEC 本 
机 0 | on 
开 ET 


一 般 地 ， 对 于 一 个 行 〈 列 ) 向 量 x， 给 定 正 整数 ， 代 码 x(D) 表 示 x 的 第 工人 个 分 量 ;， 而 给 
定 一 个 以 正 整数 为 分 量 的 另 维 向 量 六 代码 xi 表示 半 维 行 ( 列 ) 向 量 ， 其 第 丰 个 分 量 为 
x(itk))。 当 然 ， 这 里 要 求 守 的 各 个 分 量 都 不 超过 x 的 维 数 。 例 如 ， 代 码 


>> X=]1:0; 
过 [1,1.2,2,3,3,4,.4.5]; 
x(i) 





冯 概率 与 数理 统计 基本 概念 





输出 如 下 : 


1 1 2 2 3 3 4 4 、 

即 得 到 一 个 9 维 的 行 向 量 (1, 1, 2, 2, 3, 3, 4, 4, 5S)。 在 上 面 的 这 段 代 码 中 ，x 是 一 个 $ 维 的 向 量 
量 ， 而 守 是 一 个 9 维 的 向 量 ， 它 的 各 个 分 量 的 取 值 都 是 小 于 或 等 于 $ 的 正 整数 ， 因 此 代码 x(i) 
表示 一 个 9 维 的 行 向 量 。 由 于 的 第 一 个 分 量 是 1， 所 以 x(i) 的 第 一 个 分 量 等 于 x 的 第 一 个 分 
量 1， 由 于 的 第 二 个 分 量 也 是 1， 所 以 x(iD) 的 第 二 个 分 量 等 于 x 的 第 一 个 分 量 1， 由 于 的 
第 三 个 分 量 是 2， 所 以 x(i) 的 第 三 个 分 量 等 于 x 的 第 二 个 分 量 2; 由 于 之 的 第 四 个 分 量 还 是 
2， 所 以 x(i) 的 第 四 个 分 量 等 于 x 的 第 两 个 分 量 2; ……;， 由 于 i 的 第 九 个 分 量 是 S， 所 以 x(i) 
的 第 九 个 分 量 等 于 x 的 第 五 个 分 量 5$。 

当 x 是 一 个 产 x 天 阶 德 阵 时 ， 也 可 以 用 类 似 的 代码 表示 这 个 矩阵 的 某 个 位 置 的 元 素 ， 或 
由 这 个 和 矩阵 的 某 些 行 或 列 的 交叉 位 置 的 元 素 组 成 的 矩阵 。 例 如 ， 代 码 : 


>> a=[123;456;789]; 
a(1,2) 


输出 如 下 : 
ans = 2 
即 得 到 矩阵 a 的 第 一 行 和 第 二 列 交 叉 位 置 的 元 素 2。 如 果 继 续 输 入 代码 
>> i=[1 3]; 
j=[1 2]; 
atij) 
输出 如 下 : 
2 
7 8 
这 个 结果 恰好 是 由 和 矩阵 e 的 第 一 、 三 行 与 第 一 、 二 列 交 叉 位 置 的 元 素 所 构成 的 2x2 阶 
和 矩阵 。 也 就 是 说 ,，; 指定 了 a 中 参与 构成 矩阵 ez, 力 的 行 ， 而 /指定 了 ae 中 参与 构成 矩阵 
a( 力 的 列 。 


21.3 | 排列 与 组 合 | 

为 了 计算 随机 事件 的 概率 ， 下 面 介 绍 排列 与 组 合 的 基本 知识 ， 首 先 给 出 两 个 基本 原理 。 

1. 两 个 基本 原理 

(1) 加 法 原理 

完成 某 项 工作 ， 有 两 类 不 同 的 方法 : 方法 甲 与 方法 乙 。 方 法 甲 有 产 种 方式 ， 方 法 乙 有 亲 
种 方式 ， 都 可 以 完成 这 项 工作 ， 则 完成 该 项 工作 有 产 + 环 种 方式 。 





(2) 乘法 原理 


… 完成 某 项 工作 ， 必 有 须 通过 两 个 步骤 。 第 一 个 步骤 有 m 种 方式 ， 第 二 个 步骤 有 7 种 方 
式 ， 则 完成 该 项 工作 共有 mm 种 方式 。 
2. 排列 
(1) 选 排列 
从 半 个 不 同 元 素 中 任 选 > 个 元 素 〈 不 允许 重复 ，” <) 按照 一 定 顺序 排 成 一 列 ， 称 为 从 
个 不 同 元 素 中 取 个 元 素 的 一 个 选 排列 。 其 排列 总 数 用 0 则 有 
A， =7(7 一]D)…( 有 一 +D= 直 -后 本 (2-6) 
(2) 全 排列 
将 半 个 不 同 元 素 按照 一 定 顺序 排 成 一 列 ， 称 为 这 个 不 同 元 素 的 一 个 全 排列 。 其 排列 总 
数 用 己 来 表示 ， 则 有 
己 =P(z 一 1D…3.2.1=22l! (2-7) 
(3) 可 重复 的 排列 
从 了 个 不 同 元 素 中 任 取 r 个 元 素 〈 人 允许 重复 ，r 乏 半 ) 按照 一 定 顺 序 排列 成 一 列 ， 称 为 
一 个 可 重复 的 排列 。 其 排列 总 数 用 坟 来 表示 ， 则 有 
LN = 中 7 《2-8) 
r 个 m 
3. 组 合 
从 个 不 同 元 素 中 任 取 > 个 元 素 〈 不 允许 重复 ，r 科 半 ) 不 计 顺 序 构成 一 组 ， 称 为 从 天 
个 不 同 元 素 中 取 个 元 素 构成 的 一 个 组 合 。 其 组 合 总 数 用 C% 来 表示 ， 则 有 
cr -An - 1 人 (7 一 D…(2-r+D) 1 
” 7 Plana 一 站 ! 
4. 排列 与 组 合 的 示例 
【 例 2-4】 从 26 个 英文 字母 中 取 3 个 不 同 的 字母 组 成 单词 ， 最 多 能 组 成 多 少 个 单词 ? 
解 : A3, =26x25x24 个 =15600 个 
【 例 2-5】 由 数字 0, 1, 2, 3, 4, 5 能 组 成 多 少 个 没有 重复 数字 的 5 位 数 ? 
解 : 因为 首位 数 不 能 为 0， 所 以 该 位 上 只 有 5 种 选择 ， 其 余 4 位 数 由 剩 下 的 5 个 数字 进 
行 排 列 ， 共 有 As 种 选择 ， 所 以 组 成 没有 重复 数字 的 5 位 数 共 有 
5A: =5x5x4x3x2 个 =600 个 
【 例 2-6】 从 0, 1,2…;9 共 10 个 数字 中 取出 8 个 数字 组 成 电话 号 码 ， 求 
1) 8 个 数字 均 不 相同 的 电话 号 码 总 数 。 
2) 8 个 数字 组 成 的 所 有 可 能 的 电话 号 码 总 数 。 
解 : 1) 利用 选 排列 的 计算 公式 得 


A5 = 史 个 =1814400 个 
2) 利用 可 重复 排列 的 计算 公式 得 


〈2-9) 








ESTFS 


U5 =108 个 
【 例 2-7】 平面 上 有 10 个 点 ， 任 何 3 点 不 共 线 ， 问 
1) 共 能 做 成 多 少 个 三 角形 ? 
2) 以 其 中 一 点 4 为 顶点 的 二 角形 共有 多 少 个 ? >) 
解 ， 1) 因为 任何 3 点 不 共 线 ， 所 以 在 10 个 点 中 任 取 4 点 都 能 做 成 三 角形 ， 共 能 做 成 


01! 
Cn 二 


] 个 _1520 个 
50 个 =1201 


2) 由 于 三 角形 的 一 个 项 点 4 已 定 ， 所 以 其 余 两 点 只 能 在 9 个 点 中 任 取 两 点 ， 十 是 所 求 
的 三 角形 总 数 为 


个 =36 个 


一 9 
9 





古典 概率 | 
上 面 给 出 了 概率 的 定义 ， 它 既是 概念 ， 同 时 又 提供 了 近似 计算 概率 的 一 般 方法 。 在 某 些 
特殊 情况 下 ， 并 不 需要 临时 做 多 次 试验 来 求 得 概率 的 近似 值 ， 而 是 根据 问题 本 身 所 具有 的 某 
种 “对 称 性 ”， 充 分 利用 人 类 长 期 积累 的 关 寺 “对 称 性 ”的 实际 经 验 ， 分 析 事 件 的 本 质 ， 就 
可 以 直接 计算 其 概率 。 

例如 ， 投 搓 一 枚 1 元 硬币 ， 即 使 不 临时 做 大 量 的 投掷 试验 ， 也 会 想到 , “正面 朝 上 ” 轧 
“正面 朝 下 ”出 现 的 机 会 相等 。 因 此 ， 可 以 推测 在 大 量 试 验 中 “正面 彰 上 ”发 生 的 频率 在 L/2 
左右 ， 即 其 概率 为 112。 为 什么 “正面 朝 上 ”与 “ 止 面 朝 下 ”的 机 会 相等 呢 ? 这 是 因为 问题 
本 身 具 有 一 定 的 对 称 性 。 如 果 “ 朝 上 ”与 “ 朝 下 ”出 现 的 机 会 不 相等 ， 那 反倒 与 人 类 长 期 形 
成 的 “对 称 ” 经 验 不 相符 了 。 

【 例 2-8】 盒 中 装 有 3 个 白 球 、2 个 黑 球 共 5 个 球 ， 从 中 任 取 一 个 ， 问 取 到 白 球 的 概率 
是 多 少 ? 

解 : 既然 是 任 取 ， 那 么 取 到 每 一 个 球 的 机 会 是 一 样 的 ， 而 和 白 球 有 3 个 ， 因 此 取 到 白 球 的 
概率 是 3/5 。 

讲 得 更 清楚 些 ， 可 以 把 5 个 球 编 上 号 ， 其 中 1、2、3 号 为 白 球 ，4、5 号 为 黑 球 。 因 此 
任 取 一 个 ， 所 以 “ 取 到 守 号 球 ”(i=12,3,4,5) 这 5 个 结果 发 生 的 机 会 一 样 ， 而 且 是 互相 排 
斥 的 ， 除 此 之 外 不 可 能 有 别 的 结果 。 注 意 到 1、2、3 号 球 是 白 球 ， 所 以 “ 取 到 白 球 ” 这 一 事 
件 发 生 的 频率 会 稳定 在 3/$ 左右 ， 因 此 按照 概率 的 定义 ， 其 概率 是 3/5。 

【 例 2-9】 盒 中 装 有 球 的 情况 同 例 2-8， 现 从 中 任 取 2 个 ， 问 2 个 球 全 是 白 球 的 概率 
是 多 少 ? 

解 : 这 个 问题 较 例 2-8 复杂 ， 不 过 仍 可 按 例 2-8 的 方法 进行 分 析 ， 把 $ 个 球 同 样 编号 。 
因为 是 任 取 2 球 ， 所 以 “四 四”“@@” “0D@” “0@”“@@”“@@”“OG@， 
“ 轩 旨 ”“ 国 曙 “四 曙 ”发 生 的 机 会 一 样 ， 且 互相 排斥 ， 除 此 之 外 不 可 能 有 别 的 结果 。 再 
注意 到 上 面 10 种 情况 中 ， 有 且 仅 有 3 种 ， 即 

“人 四” “四 @” “GO@@” 

为 全 白 ， 因 此 “全 白 ” 发 生 的 概率 会 稳定 在 3/10 左右 ， 即 其 概率 是 3/10。 


[< 4] 





定义 2-2 ”如 果 一 个 事件 组 4 ,4,…,4 具有 下 列 3 条 性 质 : 

.1) 等 可 能 性 ，4 , 清 ，.,4 发 生 的 机 会 相同 。 

2) 完全 性 ;在任 一 次 试验 中 ，4 ,和 .4 中 至 少 有 一 个 发 生 。 

3) 互 不 相 容 性 ， 在 任 一 次 试验 中 ， 4 , 丸 ,，…,4 中 至 多 有 一 个 发 生 。 
则 称 事件 组 4, 丸 ,4 为 等 概 基本 事件 组 。 若 称 为 等 可 能 完备 事件 组 ， 其 中 任 一 事件 
4(=12,… 门 称 为 基本 事件 。 

如 果 4, 妈 …,4 是 一 个 等 概 基本 事件 组 ， 而 事件 有 由 其 中 的 某 六 个 基本 事件 
4 ,4 人 《 而 委 正 ) 所 构成 ， 则 事件 妃 的 概率 由 下 列 式 子 来 计算 : 


PUB)= 吕 (2-10) 


利用 式 〈2-10) 来 讲解 等 概 基本 事件 组 概率 的 模型 ， 称 为 古典 概 型 。 

现 通 过 式 〈2-10) 再 来 讲解 例 2-8。 

从 3 个 白 球 、2 个 黑 球 中 任 取 2 个 球 ， 共 有 C3=10 种 不 同 的 取 法 ， 每 一 种 取 法 对 应 一 个 
事件 ， 可 以 验证 由 这 10 种 不 同 取 法 构成 的 事件 组 是 一 个 等 概 基本 事件 组 〈 验 证 这 里 从 略 )， 
而 取得 2 个 球 均 为 白 球 这 一 事件 是 由 C3 = 3 种 取 法 对 应 的 3 个 基本 事件 所 构成 的 ， 所 以 利用 
式 〈2-10) 即 得 


P( 取 得 两 个 白 球 ) = 对 = 苇 
(C5 


下 面 再 介绍 两 个 古典 概 型 的 例子 。 

【 例 2-10】 设 有 疡 件 产品 ， 其 中 有 大 件 次 品 上 > 2 ， 产 > 50+ 上 )。 现 从 中 任 取 50 
件 ， 求 下 列 事件 的 概率 ; 

4=“ 无 次 品 ”” 8 =“ 恰 有 2 件 次 品 "。 

解 ， 从 mm 件 产品 中 任 取 50 件 ， 其 有 C% 种 不 同 的 取 法 ， 每 一 种 取 法 对 应 一 个 事件 ， 容 
易 验 证 这 些 事件 构成 一 个 等 概 基本 事件 组 〔 验 证 这 里 从 略 )。 

显然 ， 所 要 取 的 50 件 产品 中 无 次 品 ， 必 须 是 从 闫 下 件 正 品 中 取 来 的 ， 可 见 这 种 无 次 品 
的 取 法 共有 C%， 种 ， 即 事件 4 含有 CS. 个 基本 事件 ， 所 以 由 式 (2-10) 得 





取出 的 50 件 产品 中 ， 恰 有 2 件 产品 ， 即 有 48 件 正品 ，2 件 次 品 。 这 48 件 正 品 必 是 从 

六 天 件 正品 中 取出 的 ， 共 有 Cwx 种 取 法 ; 而 2 件 次 品 必 是 从 大 件 次 品 中 取出 的 ， 共 有 Cs 
种 取 法 。 因 此 ， 事 件 妃 共 包 含 Cwk Ct 个 基本 事件 ， 于 是 根据 式 (2-10) 得 

P(B) = CC tc 


【 例 2-11】 有 伙 个 人 ， 每 人 以 同样 的 概率 被 分 配 在 MX (ms N ) 间 房 中 的 任 一 间 


中 ， 求 下 列 各 事件 的 概率 : 
4=“ 某 指定 款 间 房 中 各 有 一 人 ” 


1 ID~> 


TESTETEEZYRESYSTS 





有 =“ 愉 有 间 房 ， 其 中 各 有 一 人 ” 

C =“ 某 一 指定 闻 房 中 恰 有 产 〈 闫 科 有 ) 人 号 

刀 =“ 恰 有 一 间 房 中 有 闫 〈 严 入 天) 人 ”。 

解 : 每 个 人 都 可 以 分 配 到 w 间 房 中 的 任 一 间 中 ， 共 有 N 种 不 同 的 分 法 。 个 人 分 配 到 N 
间 房 中 就 有 UX = NM" 种 不 同 的 分 法 ， 即 等 概 基本 事件 组 含有 N" 个 基本 事件 。 

现 指定 半 间 房 ， 半 个 人 被 分 配 到 这 半 间 房 中 去 ， 每 间 房 1 人 ， 共 有 已 = 品种 分 法 ， 即 事 
件 4 含 有 刀 个 基本 事件 ， 于 是 
1 
Nn 
如 果 这 叶 间 房 可 由 N 间 房 中 任意 选 出 ， 则 共有 Cy 种 选 法 ， 因 而 事件 下 共 含 有 站 C? 个 


不 同 的 基本 事件 ， 于 是 


PC4) = 





mCw NI 
NM NON-PI 

事件 C 中 的 个 人 可 从 半 个 人 中 任意 选 出 ， 共 有 C” 种 选 法 ， 其 余 靖 - 闫 个 人 可 以 任意 
分 配 在 其 余 的 N -1 间 房 中 ， 共 有 (N -D?” 种 分 法 ， 因 而 事件 C 共 包含 有 Cw(N -D"“” 个 不 
同 的 基本 事件 ， 于 是 





P(LB)= 





如 果 从 N 间 房 中 任意 选 出 一 间 ， 则 有 N 种 选 法 ， 因 而 事件 疡 共 包 含有 NC"(N -一 D" 个 
不 同 的 基本 事件 ， 于 是 


【 例 2-12】 考察 某 网 站 在 lh 内 被 点 击 次 数 的 变化 情况 ， 用 非 负 整 数 头 表示 结果 “该 网 
站 在 1lh 内 被 点 击 味 次 ” 则 样本 点 可 以 用 非 负 整数 表示 ， 样 本 空间 为 
42={0,12…} 


2.2 ”事件 及 运算 


在 随机 现象 的 研究 中 ， 样 本 点 是 最 小 的 研究 单位 ， 但 用 户 对 具有 某 种 特性 的 样本 点 会 不 
会 很 感 兴趣 。 例 如 ， 在 扼 货 子 实验 中 ,“ 掷 出 的 点 数 小 于 3” 也 是 一 个 可 能 出 现 的 结果 。 

定义 2-3 部 分 样本 点 组 成 的 结果 称 为 随机 事件 ， 简 称 为 事件 ， 常 用 大 写字 母 4.B,C,…. 
表示 ; 一 定 要 发 生 的 事件 称 为 必然 事件 ， 用 2 表示 ， 一定 不 发 生 的 事件 称 为 不 可 能 事件 ， 用 
力 表示 。 

注意 : 可 以 用 集合 的 观点 来 看 待 事件 ， 即 事件 是 样本 空 行 的 一 个 子 集 。 这 个 观点 下 ， 
随后 要 介绍 的 事件 之 间 的 关系 和 事件 之 间 的 运算 可 以 看 成 是 集合 之 间 的 关系 和 集合 之 间 的 
运算 。 











如 在 例 2-12 中 ， 该 网 站 “至 多 被 点 击 2 次 ”是 一 个 事件 。 该 事件 由 “没有 被 点 击 伙 
“被 点 击 1 次 ”和 “被 点 击 2 次 ”3 个 样本 点 所 组 成 。 在 例 2-2 中 ,“5 件 都 是 次 品 ” 为 一 个 
事件 ， 它 是 不 可 能 事件 ;“ 至 少 有 1 件 正品 ”也 为 -个 事件 ， 它 由 所 有 的 样本 点 组 成 ， 是 必 
然 事件 。 

从 定义 来 看 ， 事 件 是 一 种 特殊 的 集合 ， 可 以 用 集合 的 方式 来 表达 事件 。 如 在 例 2-12 
中 ， 该 网 站 “从 多 被 点 击 2 次 ”的 事件 4 可 以 用 集合 的 形式 表示 为 ; 

4={f “没有 被 点 击 ”%“ 被 点 击 1 次 汐 “ 被 点 击 2 次 ”} 

而 “被 点 击 1 次 ”的 事件 8 可 以 表示 为 : 

有 = { “被 点 击 1 次 "}》 

进一步 ， 如 果 用 数字 表示 事件 “被 点 击 了 次” 则 上 面 的 两 个 事件 4 和 有 可 以 分 别 表 
示 为 4= {0,12} 和 中 = {1}， 必 然 事件 可 以 表示 为 42 = {0,1,2,…} 。 

可 以 用 平面 图 形 来 网 示 事 件 ， 具 体 方法 是 用 一 
个 封闭 的 平面 曲线 的 内 部 表示 一 个 事件 。 例 如 ， 对 
二 事件 4， 岗 2-1a 中 矩形 的 内 部 表示 样本 空间 
(必然 事件 )， 椭 圆 型 区 域 的 内 部 表示 事件 4， 这 样 


的 示意 图 称 为 维 恩 图 。 注 意 ， 在 维 恩 图 中 ， 表 示 事 





件 的 区 域 边 缘 〈 即 封闭 曲线 的 形状 ) 可 以 是 任意 a) 
的 ， 但 它 必 须 位 于 表示 必然 事件 的 区 域内 部 ， 如 图 网 2-1， 事件 的 示意 图 一 维 恩 图 
2-1lb 中 的 封闭 曲线 的 内 部 区 域 也 可 以 表示 事件 4。 a) 事件 4 的 维 思 图 b) 事件 4 的 维 候 图 


事件 4 发 生 或 出 现 事件 4 是 指出 现 了 构成 该 
事件 的 样本 点 oO ， 即 出 现 的 样本 点 wes4 。 事 件 4 不 发 生 或 没有 出 现 事 件 4 是 指出 现 的 样本 
点 包 不 在 事件 4 中， 即 出 现 的 样本 点 we4。 

定义 2-4 如 果 事 件 4 发 牛 能 够 推出 事件 下 发 生 ， 则 称 事件 4 包含 于 事件 B， 或 事件 4 
被 有 包含 ， 简 称 为 4 包含 于 B,， 或 4 被 有 包含 ， 记 为 4CB;， 也 可 以 称 为 事件 B 包含 事件 
4， 简 称 为 中 包含 4， 记 为 妃 D 4。 如 果 4 包含 B， 且 已 包含 4， 则 称 事件 4 等 于 事件 ， 
记 为 4=B。 


注意 : 事件 的 包含 关系 、 被 包含 关系 和 相等 关系 的 定义 与 集合 论 中 的 相应 概念 类 似 。 这 
里 用 事件 发 生 或 不 发 生来 定义 这 些 关系 能 更 好 地 体现 事件 之 间 关 系 的 实际 含义 。 


定义 2-5 如 是 事件 4 和 事件 有 没有 公共 的 样本 点 ， 则 称 事件 4 和 事件 B 互 斥 ， 或 事 
件 4 和 事件 妃 不 相 容 。 如 果 半 个 事件 〈 一 个 事件 列 ) 的 任意 两 个 事件 都 互 斥 ， 则 称 这 半 个 事 
件 〈 这 个 事件 列 ) 两 两 相 斥 ， 或 两 两 不 相 容 。 

【 例 2-13】 在 例 2-12 中 ， 用 4 表示 事件 “该 网 站 在 lh 内 被 点 击 奇数 次 ” 好 表示 事件 
“该 网 站 在 lh 内 被 点 击 3 次 ”，C 表示 事件 “该 网 站 在 lh 内 被 点 击 次 数 大 于 次” 则 

4={22a+1ll7=012…}，B={3)，C={16.7,8…: 

并 且 BcC4，B 和 C 互 斥 4 和 C 不 互 斥 。 

可 以 借助 维 恩 图 来 理解 和 记忆 事件 的 包含 和 互 斥 关系 的 含义 。 如 在 图 2-2a 中 ， 代 表 事 
件 4 的 区 域 完全 落 在 代表 事件 妃 的 区 域内 部 ， 这 表 丰 4 的 样本 点 全 部 是 呈 的 样本 点 ， 即 关 

系 4CcB 成 立 。 在 图 2-2b 中 ， 代 表 事件 4 和 事件 B 的 区 域 没有 公共 部 分 ， 表 示 两 个 事件 没 











ES 


有 公共 的 样本 点 ， 即 它们 互 斥 。 
在 实际 应 用 中 ， 人 们 经 常用 一 些 简单 的 事件 
来 构造 新 的 事件 ， 这 涉及 事件 的 运算 。 下 面 介绍 





常用 的 几 种 事件 的 运算 。 

(1) 并 

把 事件 4 和 妃 的 所 有 样本 点 合 到 一 起 所 构 
成 的 事件 称 为 事件 4 与 妃 的 并 ， 记 为 4UB 。 可 图 2-2 ”表示 事件 关系 的 维 恩 图 
以 把 事件 4 与 有 的 并 表示 为 a) 4cB 或 68DP4 日 4 与 有 开导 


4UB={olos4 或 os 中 

显然 ， 事 件 4UB 发 后 等 价 于 事件 4 和 事件 下 中 至 少 有 一 个 事件 发 生 。 

(2) 交 

用 事件 4 和 召 所 共有 的 样本 点 构成 的 事件 称 为 事件 4 与 妃 的 交 ， 记 为 4PB， 或 4B。 
可 以 把 事件 4 与 妃 的 交 表 示 为 

4nB8={olos4 且 osB} 

显然 ， 事 件 4 站 B8 发 牛 等 价 于 事件 4 和 事件 中 同时 发 生 。 

(3) 差 

在 事件 4 中 而 不 在 中 中 的 样本 点 所 构成 的 事件 称 为 事件 4 与 中 的 差 ， 记 为 4- 妃 。 可 以 
把 事件 4 与 好 的 差 表 示 为 

4-8B={olos4 且 wx 

显然 ， 事 件 4- 好 发 生 等 价 于 在 4 和 号 两 个 事件 中 ， 仅 有 事件 4 发 生 。 

(4) 补 

由 不 在 4 中 的 样本 点 所 构成 的 事件 称 为 事件 4 的 余 事件 ， 或 事件 4 的 补 事件 ， 记 为 
4。 可 以 把 事件 4 的 余 事件 〈 补 事件 ) 表示 为 

4={oloe 妨 =2-4 

显然 ， 事 件 志 发 生 等 价 于 事件 4 不 发 生 ， 万 的 余 事件 等 于 事件 4， 即 (本 = 4。 

可 以 借助 于 维 恩 图 来 理解 事件 的 运算 ， 如 图 2-3 所 示 。 图 2-3a 中 的 网 线 区 域 表 示 事 件 
4UB ， 其 含义 为 该 事件 由 事件 4 和 中 的 所 有 样本 点 构成 ;图 2-3b 中 的 网 线 区 域 表 示 事 件 
4 站 B ， 其 含义 为 该 事件 由 事件 4 和 下 的 所 有 公共 样本 点 构成 : 图 2-3c 中 的 斜 线 〈 即 从 磊 
上 到 右 下 的 斜 线 ) 区 域 表 示 事 件 4- 妃 ， 其 含义 为 在 事件 4 中 去 掉 事件 巨 中 的 所 有 样本 点 所 
剩余 的 那些 样本 点 所 构成 的 事件 ， 图 2-3d 中 的 网 线 区 域 表 示 事 件 4 的 余 事 件 ， 其 含义 为 该 
事件 由 不 在 事件 4 中 的 样本 点 所 构成 。 





图 2-3 ”表示 事件 之 间 运 算 的 维 恩 图 
al 4UB bj 4nB ec 4-B d 攻 








【 例 2-14】 在 搓 朋 子 实验 中 ， 用 数字 让 =12,3,4,5,6) 表示 掷 出 的 结果 为 全 点 面向 上 交 
则 样本 空间 为 


= 仙 2,3,4,5,6} 
记 4= 仙 2,3) ，B={456) ，C= ,4,5,6} 。 
4UB=QC，4B=O，4-C=1L2?} 
4=B，5=4，4-B=14 

因此 4UB 为 必然 事件 ，4B 为 不 可 能 事件 ，4- C 表示 “出 现 的 点 数 小 于 3” 4 为 事 
件 瑟 ， 互 为 事件 4，4- 下 还 等 于 事件 4 本 身 。 

定理 2-1 事件 运算 的 对 偶 律 。 

1) 4UB8=4n 巨 。 

2) 4nB3=4U 巨 。 

证 明 : we4UB 等 价 于 we4UB ， 即 oe4 且 wzeB， 亦 即 osjdn 巨 ， 所 以 
4UB= 了 mn 巨 ， 即 结论 1) 成 立 。 

注意 到 (4) = 4 ， 由 结论 1) 可 得 艺 U 豆 = 4mB ， 等 式 两 边 再 次 取 余 运算 可 得 结论 2 )。 


注意 ;借助 维 思 图， 容易 理解 事件 运算 的 对 偶 律 。 事 实 上 ， 事 件 4U 的 维 思 图 如 图 2-4a 
所 示 。 其 中 的 网 线 区 域 代 表 该 事件 ， 这 个 网 状 区 域 当 然 等 于 图 2-4b 中 的 儿 线 区 域 ( 代表 事 
件 二 ) 和 图 2-4c 中 的 反 镍 线 ( 即 从 右上 到 左下 的 斜 线 ) 区 域 ( 代表 事件 互 ) 的 公共 部 分 ， 
即 4UB= 了 才 门 瓦 。 类 似 地 ， 图 2-4d 中 的 儿 线 区 域 代 表 事件 了 站 ， 这 个 斜 线 区 域 是 由 图 2- 
4e 中 的 儿 线 区 域 (代表 事件 二) 和 图 2-4f 中 的 斜 线 区 域 ( 代表 事件 万 ) 合并 所 构成 的 ， 即 
4 站 BE=U 巨 。 








图 2-4 表示 事件 关系 的 维 恩 图 
al 4UB8 bl 4 ee 万 dd4h3 日 二 站 瑟 


定理 2-2 ”事件 运算 的 简单 性 质 。 
1) 4-B=4-(4B)= 4 万 。 

2) (4UB)C=(4C)U(BC) 。 
3) (4B8)UC=(4UC)(BUC)。 


ET STR 





证 明 : 如 图 2-5a 所 示 ，4B 由 事件 4 和 事件 中 的 公共 样本 点 所 构成 《网 中 的 网 线 区 
域 )， 因 而 从 事件 4 去 掉 事件 8 中 的 所 有 样本 点 等 价 于 从 4 中 去 掉 事 件 4B 中 的 所 有 样本 
点 ， 即 4-8=4-(48)。 如 图 2-5b 所 示 ， 由 不 在 事件 她 中 的 样本 点 所 构成 《 赂 中 的 斜 线 _ 
区 域 )， 这 些 样 点 与 事件 4 中 样本 点 的 公共 部 分 恰好 构成 4-B， 因 此 4-B=45 。 所 以 结 但 jj 
论 1) 成 立 。 














图 2-5 4-B=4-(48)= 45 的 示意 图 
al 4-B=4-(48) 的 示意 图 bj 4- 有 = .48 的 示意 图 


如 图 2-6 所 示 ， 由 于 4c4UB，Bc4UB, 所 以 4Cc(4UB)C，BCc(4UB)C， 
进而 有 
(4UB)C>2(4C)U(BC) (2-11) 
另 一 方面 , 若 oe(4UB)C， 则 we4UB 且 osC 。 所 以 oe4 且 wesC 或 os 了 月 
oOeC,， 即 os4C 或 osBC,， 亦 即 oe(4C)U(BC) 。 因 此 
(4UB)cc(4C)U(UBC) (2-12) 
出 式 〈2-11) 和 式 〈2-12) 可 得 结论 2)。 





图 2-6 (4UB)C=(4C)U(5Cc) 的 示意 同 
利用 事件 运算 的 对 偶 律 和 结论 2) 得 








=(4UC)(BUC) 
即 结论 3) 成 立 。 

事件 (4U 丸 )U4 和 4U(4U 汪 ) 相 等 ， 它 们 都 是 表示 把 4 、 汪 和 本 中 的 所 有 样本 点 
合 在 一 起 所 构成 的 事件 ， 即 表示 “事件 4 、 少 和 故 中 至 少 有 一 个 事件 发 生 ”。 为 简单 起 见 ， 
用 4U4U4 表 示 该 事件 。 








一 般 地 ， 事 件 的 并 和 交 的 运算 可 以 推广 到 任意 多 个 事件 的 情况 。 对 于 事件 列 {4,} ， 用 
U 和 表示 “在 事件 4, 各, 如 中 至 少 有 一 个 事件 发 生 ” 并 称 它 为 该 事件 的 并 ; 用 j4 表 
Al 


大 =| 


示 “ 在 事件 列 {4,} 中 至 少 有 一 个 事件 发 生 ”， 并 称 它 为 该 事件 列 的 并 ; 用 门 4 表示 “事件 


k=1 
4 4 同时 发 生 ?”， 并 称 它 为 该 事件 的 交 ; 用 门 4 表示 “在 事件 列 {4,} 中 所 有 事件 都 
4=! 


同时 发 生 ”， 并 称 它 为 该 事件 列 的 交 。 
【 例 2-15】 在 例 2-12 中 ， 用 4 表示 “该 网 站 在 lh 之 内 被 点 击 半 次 ” 则 刀 =j4, 。 


K=0 


用 轧 表示 “该 网 站 在 Ih 之 内 被 点 击 次 数 大 于 或 等 于 mw"， 则 及 = jj 和。 进一步 ， 门 马 表 
m=| 


大 一 帮 
下 “该 网 站 在 1h 内 被 点 击 无 穷 多 次 ” 
借助 于 事件 的 运算 ， 可 以 把 复杂 的 概率 计算 问题 转化 为 简单 的 概率 计算 问题 ， 在 随后 的 
学 习 和 研究 过 程 中 将 会 体会 到 这 一 点 。 


2.3 条件 概率 与 事件 的 独立 性 





前 面 讨论 随机 事件 如 的 概率 都 是 相对 于 某 组 确定 的 条 件 8 而 言 的 。 P(S) 就 是 在 条 件 组 
S 的 实现 之 下 ， 事 件 B 发 生 的 概率 。 有 时 除了 这 组 基本 条 件 $ 之 外 ， 还 要 提出 附加 的 条 件 ， 
也 就 是 要 求 “ 在 事件 4 已 经 发 生 的 前 担 下， 事件 有 发生 的 概率 ”。 这 就 是 所 谓 的 条 件 概率 问 
题 ， 记 为 P(LB14) 。 

下 面 首先 研究 一 个 简单 的 示例 。 

【 例 2-16】 一 盒 产 品 共 10 只 ， 其 中 有 3 只 次 品 。 现 无 放 回 地 从 中 抽取 两 次 ， 每 次 任 取 

_ 只 。 
1) 第 二 次 取 到 次 品 的 概率 是 多 少 ? 
2) 第 一 次 取 到 次 品 后 ， 第 二 次 取 到 次 品 的 概率 是 多 少 ? 


解 : 1) 令 4=“ 第 一 次 取 到 次 品 ” B8=“ 第 一 次 取 到 次 品 风 显然 PLO=j0， 那么 
P(B) 等 于 多 少 ? 由 于 “第 二 次 取 到 次 品 ” 这 一 事件 B 对 第 一 次 取 到 什么 产品 没有 限制 或 候 
设 ， 因 此 回答 

P(B)= 避 或 PLB) = 好 


都 是 没有 根据 的 ， 但 是 这 个 问题 可 以 用 古典 概 型 与 概率 的 加 法 公式 求解 。 
由 于 
B=4B+4B8，(48)(4B)= 包 
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所 以 
CC CICi 
区 Aho 
-3x2 ,7x3 _ 3. 

10x9 10x9 10 


2) 其 实 凭 直觉， P(B) 也 应 等 于 让 个 则 “抽签 ”这 个 公认 为 公平 的 方法 ， 就 不 公 


P(B)= P(4B)+P(4B)= 








于 天 

全 于 P(B814) 是 在 一 定 条 件 下 ， 又 附加 了 一 个 4 已 经 发 生 的 条 件 ， 事 件 8 发 生 的 概 浆 。 
在 上 例 中 P(B14)#P(B)， 即 P(B14) 与 P(8) 是 有 区 别 的 ， 所 以 称 其 为 条 件 概 率 。 一 般 地 ， 
有 如 下 的 定义 。 

定义 2-6 如 果 4 及 下 是 条 件 组 S 下 的 两 个 随机 事件 ， 且 P(4) 0 ， 则 称 在 事件 4 发 生 
的 前 提 下 事件 妃 发 牛 的 概率 为 条 件 概 率 ， 记 为 PLB14) 。 


乘法 公式 | 

由 上 述 内 容 可 知 ， 条 件 概率 PLB1.4) 与 事件 有 的 原 概率 PLB) 在 一 般 的 情况 下 是 木 相等 
的 ， 那 么 它们 之 间 有 什么 关系 呢 ? 人 类 从 长 期 的 大 量 社会 实践 中 总 结 出 了 它们 之 间 具 有 如 下 
的 普遍 规律 ， 即 





P(4B) 
PC4d) 

式 〈2-13) 揭示 了 概率 P(4) 、P(4B) 与 条 件 概率 P(B|4) 之 间 的 关系 。 通 常 ， 可 以 从 如 
下 的 两 个 方面 来 利用 这 一 关系 。 

1) 已 知 P(4) 、P(4B) 来 求 得 P(B1.40) 。 

2) 已 知 P(4) ，P(B14) 来 求 得 P(4B) 。 

在 后 一 种 情况 下 ， 为 了 方便 起 见 ， 还 可 将 式 (2-13) 改写 为 

P(4B)= P(4)P(B14) (2-14) 

式 〈2-14) 称 为 概率 的 乘法 公式 。 

【 例 2-17】 盒 中 有 5 个 乒乓 球 ， 其 中 3 个 新 球 ，2 个 旧 球 。 现 无 放 回 地 取 两 次 ， 每 次 任 
取 - 球 ， 求 第 一 次 取 到 新 球 后 ， 第 二 次 取 到 新 球 的 概率 。 

解 : 令 4=“ 第 一 次 取 到 新 球 ” 8B =“ 第 一 次 取 到 新 款 ” 则 有 48 =“ 第 一 、 二 次 部 取 
到 新 球 ”， 且 


PUB14)= (PC4) 关 0) (2-13 ) 





Cj-C_3x2 3 
5x4 ”10 





PCd) = 也， PC4B)= 


利用 式 〈2-13) 即 得 所 求 事件 的 概率 为 


和 二 2 2 


【 例 2-18】 甲乙 两 厂 共生 产 了 1000 个 零件 ， 其 中 300 个 是 乙 厂 生产 的 。 而 在 这 300 个 
零件 中 有 189 个 是 标准 品 。 现 从 1000 个 零件 中 任 取 一 个 ， 问 是 乙 厂 生产 的 标准 品 的 概率 是 














多 少 ? 

解 : 令 4=“ 取 出 的 是 乙 三 生产 的 标准 品 ”。 
则 有 

4B=“ 取 出 的 是 甲乙 两 厂 生产 的 标准 品 ”。 
又 由 于 


=-.300 - =J82 - 
PLD=i000=03，P(814)=300=0.63 


所 以 利用 式 〈2-14) 得 


ES 
1. 两 个 事件 的 独立 性 
在 给 出 独立 的 概念 之 前 ， 先 看 一 个 简单 的 例子 。 
【 例 2-19】 盒子 中 共有 5 个 乒乓 球 ， 其 中 3 个 新 球 ，2 个 旧 球 。 现 有 放 回 地 抽取 两 次 ， 
每 次 任 取 1 球 。 如 果 记 4=“ 第 一 次 取 到 新 球 ” B=“ 第 二 次 取 到 新 球 ” 则 有 
P(BI4I)=P(B14)=P(B)。 


P(4B)= P(4)P(B14)=0.3x0.63=0.189 














解 : 显然 有 
4=“ 第 一 次 取 到 旧 球 
且 
三 -3 才 二 之 
PLD=P(B)= 二 ， P(4)= 和 
又 由 于 
CC 3 9 Ci.C 3x2 6 
P(4B)= 0 = 到 -55， 人 = 人 5 
所 以 
_PUB) 9 3_3 
= PC 亲人 
而 =PC4B)_ 6 /2_3 
| 二 Pd) /3 
因此 


P(B|4)=P(BI4)=P(B) 

例 2-19 说 明 ， 在 某 些 情况 下 ， 事 件 4 的 发 生 或 不 发 生 均 不 影响 事件 如 发 生 的 概率 ， 且 

可 以 说 明 
P(BI4 和 I=P(B) 亿 PC4B)= PC4)P(CB) 

其 中 P(4) 关 0 《证 明 这 里 从 略 )。 由 此 便 可 引出 随机 事件 的 独立 性 概念 。 

定义 2-7 如 果 随 机 事件 4 及 也 满 足 

P(4B)= PC4)P(B) (2-15) 

则 称 4 与 互 为 相互 独立 的 随机 事件 。 








定理 2-3 如果 4 对 事件 : 
1) 4 与 B。 
2) 4 与 妃 。 
3) 4 与 已 。 
4) 4 与 刀 。 
即 上 述 4 对 事件 或 者 都 相互 独立 ， 或 者 都 不 独立 。 
证 明 : 只 需 证 明 如 果 4 与 下 独 立 ， 则 4 与 下 也 独立 ， 其 余 读者 自行 证 明 。 
因为 





B=4B+4B，(4B)(4B)= 纪 
所 以 
P(B)= P(4B)+P(C4B) 
又 因为 4 与 妃 相 互 独立 ， 即 
P(4B)= PC4)P(B) 
所 以 
P(4B)= P(B)- P(4B)= P(B)- PC4)P(B) 
=[1-P(C4)]P(B)= PC4)P(B) 
即 才 与 妃 相 互 独立 。 
【 例 2-20】 两 射手 彼此 独立 地 向 同一 目标 射击 。 设 甲 射 中 的 概率 为 0.9， 乙 射 中 的 概率 
为 0.8， 求 目标 被 击 中 的 概率 。 
解 : 令 4=“ 甲 射 中 目标 汪 中 =“ 乙 射 中 目标 ” C =“ 目 标 被 击 中 ” 则 有 


C=4+ 叱 
方法 一 ; 

P(C)=P(4+B)=P(C4)+P(B)- PC4B) 
= PC4)+P(B)- PC4)P(B) 
=0.9+0.8-0.9x0.8=0.98 

方法 二 : 
为 
P(C) = PU4+ 有 = P(47) = PC 人 )P() 
所 以 


P(C)=1-P(C)=1- P(4)P(B) 
=1-0-PC)]LL- P(5)] 
=1-(1-0.9)(1-0.8)=1-0.02 =0.98 
2. 7 个 事件 的 独立 性 
定义 2-8 如 果 事件 4，B，C 满足 
P(4B) = P(4)P(B) ，P(BC)= PCB)P(C) 
P(C4) = P(C)P(L4) ，P(4BC) = P(L4)P(B)P(C) 
则 称 4，B，C 是 相互 独立 的 事件 。 








定义 2-8 给 出 了 3 个 事件 相互 独立 的 概念 。 一 般 地 ， 对 于 于 个 事件 4 ,4 水 的 相 王 


独立 性 ， 有 如 下 的 定义 。 


定义 2-9 如 果 事 件 组 4, 消 ,4, 对 于 任 取 的 正 整 数 上 (2 和 上 和 ) 和 任意 的 


Ts 委 六 和 六 入 由 ， 均 满足 等 式 : 
4 本 4 = 有 4 )P(4) PC4 ) 
则 称 事件 组 4 , 妃 ,…,4, 是 相互 独立 的 。 


(2-10) 


如 何 判断 一 些 事件 是 奋 相互 独立 呢 ? 在 很 多 情况 下 ， 并 不 需要 利用 式 〈2-16) 进行 复杂 


的 计算 ， 而 是 根据 对 事件 本 质 的 分 析 即 可 知道 。 
显然 ， 当 事件 组 4 ,4,……,4, 相互 独立 时 ， 有 
P(4 ,机 4)=P4)PC4)…P(d) 
【 例 2-21】 设 每 支 步枪 射 中 飞机 的 概率 为 0.004。 
1) 求 250 支 步枪 同时 射击 时 击 中 飞机 的 概率 。 
2) 要 使 击 中 飞机 的 概率 达到 99%， 至 少 需要 多 少 支 步枪 ? 
解 : 令 4=“ 一 支 步 枪 射 中 飞机 ”。 
妃 =“250 支 步枪 同时 射击 时 击 中 飞机 ”。 
4=“ 第 支 步枪 射 中 飞机 ”。 
则 有 
有 ?=4+ 肌 +… 和 + ， 有 = 机 … 和 4 
P(4) = P(L4)=0.004 ，P(4) = P(4)=0.996 
1) 由 于 
P( 玖 =P(4……4oj= PC4)P( 坝 )…P(4a) 
=[P(4)]?59 :0.37 
因此 所 求 事件 瑟 的 概率 为 
P(B)=1-P(B)=1-[P(L)] 
=1 一 (0.996)25 = 0.63 
2) 由 1) 可 知 , 另 支 步枪 同时 射击 飞机 时 击 中 飞机 的 概率 应 为 
1-[P(4)]” =1-(0.996)” 
从 而 由 题 意 知 
1--(0.996)” > 0.99 或 (0.996)" 入 0.01 
即 有 
zln(0.996) 和 ln(0.01) 或 >1150 
因此 所 需 步 枪 数 至 少 为 1150 支 。 


《2=172 


【 例 2-22】 一 射手 每 次 击 中 某 目标 的 概率 为 p(0 < 书 <1) ， 现 独立 地 向 该 目标 射击 了 ， 


次 ， 求 其 击 中 目标 的 概率 。 
解 : 令 4=“ 击 中 目标 ” 4 = “第 ;次 射 中 目标 








又 由 于 


PL4)= 忆 ，P(4)=1-PG=12… 门 
因此 ， 所 求 事件 的 概率 为 
PC =1-PC)=1-P(4 二 … 志 ) 
=1-P(4)P(4)…P(4)=1-(1-P" 


2.4 概率 空间 


20 世纪 前 ， 还 没有 提出 概率 论 的 公理 化 体系 ， 主 要 的 研究 范围 为 古典 概 型 和 几何 概 
型 ， 这 限制 了 概率 论 的 发 展 。 数 学 家 科 尔 英 戈 罗 夫 于 1934 年 出 版 的 《概率 论 的 基本 概念 》 
慰 志 着 概率 论 的 公理 化 体系 的 建立 。 





概率 论 的 主要 任务 是 研究 概率 所 共有 的 性 质 ， 这 里 的 概率 是 指 研究 者 所 感 兴趣 的 事件 的 
概率 。 例 如 ， 在 掷 仍 子 实验 中 ， 如 果 只 关心 掷 出 的 点 数 是 否 为 偶数 ， 那 么 所 关心 的 事件 就 是 
4= {2,4,6} 是 否 出 现 ， 而 不 关心 事件 {1}、{3} 等 。 

用 包 表示 所 关心 的 事件 全 体 。 一 个 自然 的 想法 是 仅 把 多 中 的 事件 作为 研究 范围 ， 以 便 集 
中 精力 研究 所 关心 的 事件 出 现 的 概率 。 在 很 多 时 候 ， 利 用 事件 的 运算 可 以 简化 所 关心 事件 的 
概率 计算 ， 因 此 应 该 要 求 研 究 范围 对 事件 《有限 个 ) 的 运算 封闭 ， 即 研究 范围 内 的 任何 两 个 
(有限 个 ) 事件 的 运算 结果 还 应 该 在 研究 范围 之 中 。 

在 掷 朋 子 实验 中 ， 如 果 关 心 抑 出 的 点 数 是 否 小 于 或 等 于 $， 则 所 关心 的 事件 全 体 为 
8={4， 其 中 4= 山 2,3,4,5}， 显 然 刀 对 事件 的 运算 不 封闭 ， 如 4=6<e 刀 ， 而 在 某 些 情况 
下 事件 4 的 概率 更 容易 得 到 。 要 使 得 研究 的 范围 对 事件 的 运算 封闭 ， 这 个 范围 应 该 是 

刀 ={2440} 
或 者 是 样本 空间 .Q 的 一 切 子 集 全 体 

8={|18c4} 
等 。 这 里 2 = 册 2,3,4,5,6} 是 必然 事件 ， 显 然 刀 中 仅 有 4 个 事件 ， 而 事 中 则 有 25 = 64 个 事 
件 。 也 就 是 说 ， 在 这 种 情况 下 ， 态 中 包含 了 更 多 的 我 们 所 不 感 兴趣 的 事件 。 

若 儿 是 由 一 些 事件 构成 的 集合 ， 则 它 对 事件 的 有 限 次 运算 是 封装 的 ， 且 QQ = 旬 ， 则 称 如 
为 中 上 的 G 人 代数， 即 任何 ce 代数 都 被 它 包 含 。 

【 例 2-23】 考虑 一 个 随机 现象 可 能 会 出 现 的 事件 4。 在 相同 的 条 件 下 重复 观测 该 现象 
次 ， 用 nm(4) 表示 壮 次 观测 中 4 出 现 的 次 数 ， 称 

HP(4 
F(O=2 
为 事件 4 发 生 的 频率 。 
定理 2-4 频率 已 具有 如 下 基本 性 质 : 


浊 








1) 非 负 性 ，E(C4)>0 ，V4。 

2) 规范 性 ，F(C)=1，F(O)=0。 

3) 可 加 性 : 若 事 件 4 与 已 不 相 容 ， 则 FE(C4UB)=F(C4)+E(B) 。 

证 明 : 非 负 性 和 规范 性 显然 成 立 。 注 意 到 当 4mB= 纪 时， 有 nm4UB)=m4d)+AB)， 


即 可 加 性 。 

在 一 定 的 条 件 下 ， 当 实验 的 次 数 z -> oo 时，F(4) 的 “极限 ”存在 ， 这 时 称 它 为 事件 4 
的 概率 ， 记 为 PC4) 。 

出 于 极限 具有 可 加 性 和 保 序 性 ， 进 而 由 频率 的 3 条 性 质 可 以 推出 概率 应 该 具有 的 相应 
性 质 : 

1) 非 负 性 : F(C4)>0。 

2) 规范 性 F(CC)=1，F(C)=0。 

3) 可 加 性 : 若 事 件 4 与 妃 不 相 容 ， 则 F(4UB) = 天 4)+F(B)。 
概率 空间 | 

假设 cc 代数 纪 是 研究 范围 ， 对 于 多 中 的 每 一 个 事件 ， 都 有 一 个 概率 值 与 之 对 应 ， 即 概率 
从 刀 到 实数 集合 的 一 种 映射 。 通 常 ， 称 从 多 到 实数 集合 的 映射 为 集 函 数 。 按 照 这 种 观点 ， 概 
率 是 一 个 集 函 数 ， 反 之 却 不 真 。 例 如 ， 把 所 有 的 事件 都 映射 成 -1 的 函数 显然 不 是 一 个 概 
率 。 一 个 自然 的 问题 是 ， 作 为 概率 的 集 函 数 应 该 有 什么 最 基本 的 性 质 ? 什么 样 的 性 质 可 以 作 
为 概率 理论 研究 的 理论 基础 ? 

定义 2-10 (概率 的 基本 公理 ) 设 姑 为 如 上 的 cc 代数 ， 如 果 定 义 在 所 上 的 集 函 数 只 (.) 
满足 如 下 条 件 ; 

1) 非 负 性 : vde 和 ， 有 9%C4)>0。 

2) 规范 性 ;9(OC) =1。 

3) 可 列 可 加 性 : 对 于 两 两 不 相 容 的 事件 列 {4,}c 和 ， 有 


中 U4j- ao 


有 二 | 
则 称 轩 为 上 的 概率 测度 ， 简 称 为 概率 ， 称 只 (4) 为 事件 4 的 概率 ， 称 (22,P, 史 ) 为 概率 空间 。 
注意 : 比较 定理 2-4 中 列 出 的 频率 的 3 条 性 质 ， 不 难看 出 ， 可 把 非 负 性 、 规 范 性 和 可 列 
可 加 性 作为 概率 公理 的 背景 。 
【 例 2-24】 对 于 样本 空间 .2 的 一 个 子 集 4， 取 和 = { 纪 ,4,4,2} 。 定 义 
P(4) 和 AP ，PLD)Aqg9，PO)IA0，P(O)Al 
其 中 ，0<p<1，9g=1-P ， 则 称 (Q,?, 史 ) 为 伯 努 利 概率 空间 。 





注意 : 在 伯 努 利 概率 空间 中 ， 可 以 认为 样本 空间 只 有 两 个 样本 点 4 和 才 ， 即 
QQ={4, 作 。 若 随机 实验 只 有 “成 功 ” 与 “失败 ”两 个 可 能 的 实验 结果 ， 则 可 以 用 伯 努 利 概 
率 空 间 来 描述 这 个 随机 实验 。 只 需 把 4 理解 为 成 功 ， 把 4 理解 为 失败 即 可 。 此 时 ， 称 六 为 成 
功 概 率 ， 称 9g 为 失败 概率 。 





EREERRS 





伯 努 利 概率 空间 应 用 很 广 ， 比 如 可 以 应 用 于 掷 硬 币 、 考 察 产 品 是 否 合格 、 射 击 是 否 击 中 
目标 等 问题 。 一 般 地 ， 凡 是 只 有 两 个 互 斥 结果 的 随机 现象 都 可 以 用 伯 努 利 概率 空间 来 描述 。 
【 例 2-25】 样本 空间 Q = fo,o，…w}， 多 由 只 的 一 切 子 集 所 构成 。 如 果 样 本 点 ow 出 
现 的 概率 为 记 ，1 乞 i 乏 中， 定义 
PLD)=A 2》 忆 ，vV4e 甸 (2-18) 


全 起 E4 
则 称 (42,4,9) 为 有 限 概率 空间 。 特 别 地 ， 当 疡 =J/z 时 ， 称 这 个 概率 空间 为 古典 概率 空间 ， 
相应 的 概率 称 为 古典 概率 。 


注意 : 1) 显然 》 =1。 
3 


2) 式 (2-18 ) 等 号 的 右 端 表示 4 中 的 样本 点 所 对 应 的 概率 之 和 。 例 如， 在 搓 朋 
子 实 验 中 ， 用 4 表示 搓 出 “偶数 点 ”， 忆 表 示 搓 出 邱 点 ”的 概率 ， 即 
4= 人 2,46 ，P( 他 )= 记 ，1<i<6 
则 
人 己 =P+Pi+P6 


居中 E 才 
【 例 2-26】 样本 空间 2 = to,w，…w}， 儿 由 史 的 一 切 子 集 所 构成 。 如 果 样 本 点 四 出 
现 的 概率 为 疡 ，1E&i 和 7 定义 
PL)=A 》 忆 ，V4E 和 (2-19) 


尼 丰 E4 


则 称 (22,9,9) 为 离散 概率 空间 。 


注意 : 这 里 ， 事 件 4 的 概率 表达 式 和 有 限 概率 空间 中 的 相同 。 不 同 的 是 ，4 中 可 能 包含 
无 限 多 个 样本 点 ， 因 此 定义 的 右 端 可 能 是 一 个 无 穷 和 。 


在 例 2-12 中 ， 样 本 空间 Q 由 所 有 非 负 整数 构成 。 令 


92={4dl4e)， 已 =1e1 (2-20) 


其 中 ，; 为 非 负 整数 ， 并 按 式 (2-20) 定义 只 ， 则 (Q,po,9) 为 离散 概率 空间 。 特 别 地 ， 有 
本 mw 1 时 


等 号 右边 为 无 穷 和 。 
【 例 2-27】 对 于 ” 维 欧 氏 空间 忆 中 的 一 个 区 域 4， 用 mm(.4) 表示 其 体积 。 设 样本 空间 
2 为 已 中 的 一 个 区 域 ， 满 足 0 < m(2) <oo 。 用 尹 表 示 只 的 可 求 体积 的 子 区 域 的 全 体 。 定 义 


111(.d) 
“4OsmOD) 


则 称 (42,9,9%) 为 几何 概率 空间 ， 相 应 的 概率 称 为 几何 概率 。 
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注意 :; 在 一 维 欧 氏 空间 ( 即 数 轴 ) 中 的 “体积 ”就 是 长 度 ; 在 二 维 欧 氏 空间 ( 即 二 维 平 
面 ) 中 的 “体积 ”就 是 面积 。 在 几何 概率 空间 中 ， 求 概率 转化 为 求 体积 (长度 或 面积 )。 


【 例 2-28】 甲乙 两 人 约定 在 12 一 13 点 之 间 (不 包括 13 点 ) 的 任何 一 个 时 刻 去 公园 会 
面 ， 规 定 先 到 者 仅 等 候 30min。 试 求 事件 4={ 甲 乙 能 见面 } 的 概率 。 
解 ， 假定 甲 和 乙 都 在 12 点 以 后 到 达 会 面 地 点 。 用 x 和 》 分 别 表示 甲 和 乙 到 达 会 面 地 点 
时 距离 12 点 的 分 钟 数 ， 则 样本 空间 
={(coy)10 扩 交 7<60} 
为 二 维 欧 氏 空间 中 的 多 边 形 ， 如 图 2-7a 所 示 ， 其 面积 m(CQ)=3600。 两 个 人 能 见面 的 条 件 是 
lx- 吓 用 30 ， 所 以 
4={Coy)s2||z- 才 和 30} 
为 二 维 欧 氏 空间 中 的 多 边 形 ， 即 图 2-7b 中 的 灰色 区 域 。 由 于 两 个 人 到 达 时 刻 的 任意 性 ， 因 
此 可 以 用 几何 概率 来 计算 事件 4 的 概率 。 现 在 m(4) = 602 -30? =2700， 所 以 两 个 人 能 见面 
的 概率 为 3/4。 





al) hb) 
图 2-7 “样本 空间 与 事件 4 
a) 正方 形 区 域 (QQ ) bj) 其 色 区 域 (4) 


注意 : 这 里 “两 个 人 到 达 时 刻 的 任意 性 ”的 含义 如 下 : 对 于 撼 形 [0,60)x[0,60) 中 的 任 
何 区 域 4，4(xz,JE4 的 概率 仅 和 该 区 域 的 面积 有 关 。 也 就 是 说 ， 如 果 妃 C[0,60)x[0,60) 的 
面积 和 4 的 面积 相等 ， 则 

P(Uxy)s4=P(coy)sD) 

从 概率 定义 的 3 条 公理 出 发 ， 可 以 推出 许多 概率 的 性 质 ， 这 些 性 质 可 以 用 来 帮助 计算 复 
杂事 件 的 概率 。 下 面 介绍 几 个 常用 的 简单 的 概率 性 质 。 

定理 2-5 ” 设 (2,4,%) 为 概率 空间 ， 则 概率 有 如 下 性 质 : 

1) P(C) =0。 

2) 有 限 可 加 性 ;任意 两 两 不 相 容 的 事件 4, 刀 ,人 沁 <s 络 ， 则 


nj- 半 rw 
3) 对 于 任何 事件 4e 姑 ，0< 和 PC4) 入 1。 


4) 可 减 性 : 对 任何 事件 4cB， 有 
P(B-4)<P(B)- Pd) 
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5) 单调 性 : 对 任何 事件 4cB， 有 
Pd) 和 PCB) 


6) 对 于 任何 事件 4， 有 P(4) =1- P(4) 。 


7) 加 法 公式 : 对 于 任何 事件 4 和 她 ， 有 昌 


PC4UB)< PCL)+P(B)- PC4B) 
证 明 ; 对 于 任何 正 整 数 m， 取 分 = 纪 ， 则 {4,} 为 两 两 不 相 容 的 事件 列 ， 且 纪 =L 4 。 
大 = 
这 样 ， 由 概率 的 可 列 可 加 性 ， 有 


P(O)= 了 4]- 羡 re -之 rO) 


因此 P(C) =0 ， 即 性 质 1) 成 立 。 
钴 4, 省, 少 两 两 不 相 容 ， 可 取 4 = 名，K>1， 则 {4,} 为 两 两 不 相 容 的 事件 列 ， 且 


UU4 = [4 ， 由 概率 的 可 列 可 加 性 和 性 质 1) 得 


=ZLP4)+ > P(L4)= 》P(4) 
大 =1 大 大 =1 


二 m+| 


即 性 质 2) 成 立 。 
对 于 任何 事件 4e 已 ， 有 =4U4,， 且 4 与 4 互 不 相 容 ， 由 概率 的 非 负 性 、 规 范 性 和 
有 限 可 加 性 得 
1= P(LO)= PC4)+P(4)> PC4)>0 
即 性 质 3) 成 立 。 
当 4c 好 时 ， 有 中 =4U(B-4)， 再 注意 到 4(B8- 人 = 纪 ， 由 性 质 2) 得 
P(B)=PC)+P(B--4 
再 由 性 质 3) 得 性 质 4)。 
由 概率 的 可 减 性 和 非 负 性 得 PLB) = PL4)+ P(B- 4)> P(4) ， 即 性 质 5) 成 立 。 
注意 到 4cQ2，4=Q-4， 利 用 概率 的 规范 性 和 有 限 可 加 性 得 
1=P(O)=PC)+PC2-4 人 =PC)+PO 
即 性 质 6) 成 立 。 
由 有 限 可 加 性 易 得 性 质 7)。 
定理 2-6 若 (2,po,%) 为 古典 概率 空间 ， 对 于 任何 事件 4e 和 ，m(4) 表示 事件 4 中 样本 
点 的 个 数 ， 则 
Pd4) 


PO=XO7， 





4E 和 如 22 ) 


注意 : 在 古典 概率 空间 中 ， 概 率 的 计算 转化 为 计数 ， 称 式 (2-22 ) 为 古典 概率 计算 








证 明 : 设 如 = fo,oO}， 则 


Pob) = 十 ， 下 = 12 (2-23 ) 
对 十 任何 事件 4ep， 记 上 =m4) ， 则 存在 os@Q，1<i 和 上， 使 得 
4={ooOoon ={onU…Ufw} 
注意 到 大 个 事件 fo }…ftww } 两 两 不 相 容 ， 由 概率 的 有 限 可 加 性 和 式 〈2-23) 知 


PLD=P(wD+…+PGaD)= 世 


再 注意 到 m(2)= 关 和 大 = n(4) ， 即 可 得 结论 。 

【 例 2-29】 试 证 明 投掷 一 枚 质地 均匀 的 般 子 的 结果 可 以 用 古典 概率 空间 来 描述 ， 并 给 
出 出 现任 何 一 个 结果 4 的 概率 计算 公式 。 

证 明 : 在 投掷 均匀 人 子 的 实验 中 ， 样 本 空间 .2 = 外 2,3,4,$,6} ， 事 件 类 

={4dl4Cc4} 

由 于 咒 子 的 质地 均匀 ， 所 以 出 现 事件 他 的 概率 为 P =16 。 因 此 概率 空间 (22,P, 久 ) 为 古 
典 概率 空间 ， 其 中 概率 由 式 〈2-19) 定义 。 根 据 古 典 概率 计算 公式 〈2-22)， 任 何 一 个 结果 
4e 所 的 概率 为 

PC) = 全 样本 点 的 人 数 


2.5 ”总体 样本 


在 前 面 内 容 中 讲述 了 概率 论 的 初步 知识 ， 随 后 各 章 将 讲述 数理 统计 。 数 理 统计 是 具有 广 
泛 应 用 的 一 个 数学 分 支 ， 它 以 概率 论 为 理论 基础 ， 根 据 实验 或 观察 得 到 的 数据 来 研究 随机 现 
象 ， 对 研究 对 象 的 某 些 规律 性 作出 合理 的 估计 和 判断 。 数 理 统计 学 的 重要 分 支 有 统计 推断 、 
多 元 统计 分 析 和 试验 设计 等 。 其 具体 方法 很 多 ， 应 用 相当 广泛 ， 已 成 为 科学 研究 及 生产 、 经 
济 等 部 门 进行 有 效 研究 工作 中 必 不 可 少 的 数学 工具 。 

总 体 、 个 体 、 样 本 〈 子 样 ) 是 数理 统计 学 中 3 个 基本 的 术语 。 在 数理 统计 中 ， 常 关注 研 
究 对 象 的 某 项 数量 指标 ， 将 研究 对 象 的 某 项 数量 指标 的 值 的 全 体 称 为 总 体 ， 总 体 中 的 每 个 元 
素 称 为 个 体 ， 每 个 个 体 是 一 个 实数 。 例 如 ， 某 学 校 女生 的 身高 的 全 体 是 一 个 总 体 ， 每 一 个 女 
生 的 身高 是 一 个 个 体 ， 某 地 在 某 季度 内 每 天 的 日 平均 气温 的 全 体 是 一 个 总 体 ， 某 天 的 日 平均 
气温 是 一 个 个 体 。 


2.5.1 | 总 体 与 样本 的 基础 | 


1 示例 

【 例 2-30】 某 市 在 职 职 工 有 100 万 ， 那 么 怎样 得 到 职工 的 年 收入 情况 呢 ? 

【 例 2-31】 由 于 种 种 因素 的 影响 ， 灯 泡 厂 生产 出 来 的 灯泡 的 寿命 是 不 同 的。 为 了 判断 
所 生产 灯泡 的 质量 ， 怎 样 去 估计 某 天 所 生产 的 灯泡 的 平均 寿命 ， 以 及 使 用 时 数 长 短 的 相差 
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程度 ? 

【 例 2-32】 人 的 血型 在 医疗 上 输血) 无 疑 是 重要 的 。 假 如 要 掌握 华北 地 区 人 们 的 血 
型 分 布 〈 按 A、B、AB、O 型 分 组 )， 那 么 如 何 去 获 得 这 种 资料 ? 

事实 上 ， 某 市 职工 年 收入 情况 、 灯 泡 厂 灯 泡 的 平均 寿命 及 各 小 时 寿命 的 比例 、 华 北 地 区 
人 们 血型 分 布 都 是 客观 存在 的 ， 只 是 在 研究 之 前 不 知道 具体 细节 。 一 般 地 ， 研 究 的 总 体 ， 即 
研究 对 象 的 某 项 数量 指标 X， 它 的 取 值 在 客观 上 有 一 定 的 分 布 , 蕊 是 一 个 随机 变量 。 对 总 体 
的 研究 ， 就 是 对 相应 的 随机 变量 立 的 分 布 的 研究 。 因 此 , 蕊 的 分 布 函数 和 数字 特征 分 别 成 为 
总 体 的 分 布 函数 和 数字 特征 。 今 后 将 不 区 分 总 体 和 相应 的 随机 变量 。 

那么 如 何 获得 总 体 的 分 布 情况 呢 ? 

要 将 一 个 总 体 的 情况 了 解 得 十 分 清晰 ， 初 看 起 来 ， 最 理想 的 办 法 是 对 每 个 个 体 逐 个 进 
行 观 察 或 实验 ， 但 实际 上 这 样 做 往往 是 不 现实 的 。 例 如 ， 要 研究 灯泡 寿命 ， 要 对 每 个 灯泡 
逐个 观察 寿命 ， 由 于 寿命 实验 是 破坏 性 的 ， 一 旦 获得 试验 的 所 有 结果 ， 这 批 灯泡 也 就 全 部 
烧毁 了 。 因 此 灯泡 的 寿命 不 适宜 采用 普查 的 方法 。 对 某 城 市 100 万 职工 年 收入 情况 的 了 解 
和 华北 地 区 人 们 的 血型 分 布 也 不 宣 采 用 普查 的 方法 ， 因 为 除 客 观 因素 的 制约 《如 血型 普查 
必须 得 到 每 人 抽取 血样 的 认可 ) 外 ， 投 入 人 力 物 力 太 多 ， 耗 时 太 多 ， 也 是 一 个 制约 因素 。 
总 之 ， 对 总 体 情况 的 了 解 若 遇 到 观察 具有 破坏 性 〈 如 灯泡 寿命 ) 和 基数 太 大 ， 投 入 人 力 物 
力 和 时 间 等 太 多 ， 则 一 般 不 宜 采 用 普遍 逐个 观察 的 方法 。 那 么 采用 什么 方法 来 解决 问题 
呢 ? 一 个 很 重要 的 方法 是 随机 抽样 法 。 从 整 批 灯泡 中 抽取 一 些 灯泡 做 寿命 试验 ， 并 记录 其 
结果 ， 然 后 根据 这 些 数据 来 推断 整 批 灯泡 的 寿命 情况 。 对 于 职工 年 收入 的 情况 ， 从 职工 中 
抽取 一 部 分 ， 记 录 他 们 的 年 收入 数据 ， 然 后 借 此 数据 推断 整体 职工 年 收入 的 分 布 情况 。 对 
血型 分 布 情况 ， 采 用 在 不 同人 群 中 抽取 一 部 分 人 ， 记 载 其 血型 ， 并 根据 记载 情况 来 推断 整 





个 地 区 的 血型 分 布 。 

对 于 类 似 上 述 例子 的 问题 ， 都 是 从 总 体 中 抽取 部 分 个 体 进行 观察 ， 然 后 根据 所 得 数据 来 
推断 总 体 的 性 质 。 

2 概念 


在 一 个 总 体 藉 中， 抽取 半 个 个 体 世 ,和 天， 这 蒜 个 个 体 世 ,大和 称 为 总 体 天 的 
一 个 容量 为 半 的 样本 《〈 或 称 子 样 )。 

所 谓 从 总 体 抽 取 一 个 个 体 ， 就 是 对 总 体 疙 进行 一 次 观察 〈 即 进行 一 次 试验 )， 并 记录 其 
结果 。 在 相同 的 条 件 下 对 总 体 雹 进行 款 次 重复 的 、 独 立 的 观察 ， 将 半 次 观察 结果 按照 试验 的 
次 序 记 为 站, 和， 和， 由 于 关 , 和 ,区 ,是 对 随机 变量 盛 观察 的 结果 ， 且 每 次 观察 是 在 相 
同 的 条 件 下 独立 进行 的 ， 所 以 可 认为 看, 双龙 是 相互 独立 的 ， 且 都 是 与 忒 具有 相同 分 
布 的 随机 变量 。 这 样 得 到 的 六 ,交大 , 称 为 来 自 总 体 区 的 一 个 简单 随机 样本 ，7 称 为 样 
本 容量 。 

当 叶 次 观察 已 经 完成 ， 就 得 到 一 组 实数 所 , 刀 ……x, ， 它 们 依次 是 随机 变量 筷 , 和 ;大 
的 观察 值 ， 称 为 样本 值 〈 或 样本 观察 值 )。 

定义 2-10 设 蕊 是 具有 分 布 函数 下 的 随机 变量 ， 若 六, 友 ，…, 蕊 ,是 具有 同一 分 布 函数 
下 且 相 互 独立 的 随机 变量 ， 则 称 六 ,和 …, 筷 为 从 分 布 函数 已 (或 总 体 严 、 总 体 斩 得 到 的 
容量 为 妹 的 简单 随机 样本 ， 简 称 样 本 。 它 们 的 观察 值 刁 , 刀 ……2z 称 为 样本 值 ， 又 称 为 藉 的 壮 








个 独立 的 观察 值 。 
以 后 如 无 特别 说 明 ， 所 提 到 的 样本 都 是 指 简单 随机 样本 。 


分 布 定理 





定理 2-7 若 忆 ,和 ,万 ,是 来 自 总 体 关 的 一 个 样本 ，F(xz) 是 头 的 分 布 函数 ， P(x) 是 
区 的 密度 函数 ， 则 蕊 , 世 ,区 的 联合 分 布 函数 严 ( 人 ao) 和 联合 概率 密度 
局 ) 分 别 为 


Fe)=] [Foxo) 
靖 (2-24) 
已 oo)=T [en) 


还 需要 指出 ， 在 实际 抽样 中 ， 对 于 有 限 个 个 体 组 成 的 总 体 ， 采 用 放 回 抽样 就 能 得 到 简单 
随机 样本 。 有 时 放 回 抽样 使 用 起 来 不 方便 ， 当 个 体 总 数 W 比 要 得 到 的 样本 容量 壮大 得 多 时 ， 
在 实际 中 ， 可 将 不 放 回 抽样 近似 地 视 为 放 回 抽样 〈 即 简单 随机 样本 ) 处 理 。 


2.6 统计 量 与 抽样 分 布 
加 2 河 纹 计 主 | 


统计 量 是 统计 分 析 的 基本 工具 。 

统计 量 是 指 样本 的 不 含 其 他 未 知 参数 的 函数 。 统 计量 概念 的 要 点 是 “不 含 其 他 未 知 参 
数 "， 即 只 要 给 定 样本 数据 ， 则 统计 量 的 函数 值 〈 统 计量 的 观测 值 》 就 能 够 唯一 地 确定 下 来 。 

统计 分 析 技 术 在 一 定 程度 上 可 以 说 是 统计 量 的 构造 技术 。 学 习 过 程 中 要 高 度 重视 针对 某 
种 特定 的 问题 是 如 何 构造 相关 统计 量 的 。 本 小 节 仅 讲解 几 类 基本 的 统计 量 ， 这 是 在 特定 的 问 
题 中 构造 相关 统计 量 的 基础 材料 。 

(1) 样本 珑 

样本 和 矩 是 最 基本 、 常 用 的 一 类 统计 量 ， 主 要 包括 如 下 两 种 : 

1) 样本 下 阶 (原点 ) 和 矩 。 设 入 ,和 和 ~ 大 则 称 


人 = 了 好 ， 大 =12,…， (2-25) 
il 


为 变量 大 的 样本 丰 阶 〈 原 点 ) 矩 。4 的 观测 值 记 为 w 。 
特别 地 ， 样 本 的 1 阶 抵 


去 二 下 已 区 
下 二 全 入 (2-26) 
称 为 样本 均值 。 它 是 最 重要 的 统计 量 之 一 ， 反 映 了 变量 X 取 值 集中 程度 的 信息 。 态 的 观测 
值 用 大 表示 。 
2) 样本 大 阶 中 心 矩 。 设 总 ,和 ，, 克 ~ 区， 则 称 
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及 = 半 2 (有 一 到 ， 丰 =12… 《2-27) 
i=! 


为 变量 萎 的 样本 大 阶 中 心 矩 。 肪 的 观测 值 记 为 w 。 
特别 地 ， 样 本 的 2 阶 中 心 矩 


_1IS _ 元 \2 电 
S2 = 2 刀 ) (2-28) 
称 为 样本 方差 。 它 也 是 最 重要 的 统计 量 之 一 ， 反 映 了 变量 万 取 值 分 散 程度 的 信息 。S 的 观 
测 值 用 ?表示 。 
值得 注意 的 是 ， 在 实际 应 用 中 ， 常 用 样本 的 修正 方差 


3 = 二 (6 一 丈 ) (2-29) 
i=! 


赫 代 8 〈 以 下 若 无 特 别 说 明 ,“ 样 本 方差 ”一 词 均 指 样本 的 修正 方差 ， 仍 记 为 8 ” )。 样 本 方 
差 的 算术 根 称 为 样本 标准 差 ， 记 为 S， 即 


| LS 到 2 
se 刀 
(2) 顺序 统计 量 


顺序 统计 量 是 另 一 类 最 基本 、 常 用 的 统计 量 。 

设 总 ,和 大 iid~ 天 (00) 是 ( 刀 ,区 和 ) 的 任意 一 次 观测 值 。 记 为 
xx 是 区 0 的 一 个 排列 ， 并 且 xm 和 xa 乏 … 和 xm 。 若 令 导 维 随机 向 量 
Co Xeon) 总 是 以 Co 和 xzo 和 和 xn) 为 观测 值 ， 则 称 (Xo,X%o…Xo) 为 变量 元 
的 一 个 顺序 统计 量 。 

由 顺序 统计 量 出 发 ， 可 以 构造 许多 有 用 统计 量 。 例 如 ; 

@ 样本 最 大 值 Ka = max( 嫩 和 和 )= 和 ns 

@ 样本 最 小 值 Xan = min( 3， 天)= 克 0 。 

@ 样本 极 差 尺 = max( 吕 和, 天) 一 min( 和 大)= 关 一 X0。 

不 寻 为 奇数 


mt+ly 
2 


1 


轿 末 经验 分 布丁 效 | 
还 可 以 做 出 与 总 体 分 布 函数 FE(x) 相应 的 统计 量 一 一 经 验 分 布 函数 ， 方 法 如 下 : 设 
站 ,和 是 总 体 三 的 一 个 样本 ， 用 SGxz) (-o <x<oo) 表 示 司 ,和 大 中 不 大 于 xx 的 随 


机 变量 的 个 数 ， 定 义 经 验 分 布 函 数 巨 (zx) 为 
尺 CD=，S(G9 ， -oo<x<o (2-30) 
对 于 一 个 样本 值 ， 经 验 分 布 函数 玉 (x) 的 观测 值 是 很 容易 得 到 的 。 瓦 (x 的 观测 值 仍 以 


。 样本 中 位 数 认 = 
[和 + 为 人 
2 


罗 
2 











已 (Oo 表示 。 例 如 : 
1) 设 总 体 世 具有 一 个 样本 值 1，2，3， 则 经 验 分 布 函数 玉 (x) 的 观测 值 为 


| 


1 入 x<2 
情 (r) = 


YER3 


1 


| 


2) 设 总 体 世 具有 一 个 样本 值 1，1，2， 则 经 验 分 布 函数 已 (x) 的 观测 值 为 


0， x<1 
已 ( 习 = 和 1<x<2 
国有 本 


一 般 情况 下 ， 设 交 , 加 ,如 是 总 体 区 的 一 个 容量 为 款 的 样本 值 ， 先 将 忆 ,，…,x 按 自 小 
到 大 的 次 序 排列 ， 并 重新 编号 ， 设 为 
X0 和 Xa) 入 入 次 
。 则 经 验 分 布 已 (xz) 的 观测 值 为 
0， xx<xn 
羽 (可 = 全 ，Xb 生 <2， 大 =12…0-1 
1， 之 妈 m 


对 于 经 验 分 布 函数 已 (z) ， 格 里 汶 科 (Glivenko) 在 1933 年 证 明了 以 下 结果 :， 对 于 任 一 
实数 x， 当 半 一 o 时 天 (z) 以 概率 1 一 致 收敛 于 分 布 函数 (xz) ， 即 


Pimin sup Po-Fol=o-: (2-31) 


由 此 可 见 ， 当 寻 充 分 大 时 ， 经 验 分 布 函数 已 (xz) 是 总 体 分 布 函数 F(xz) 的 一 个 近似 ， 这 就 
是 数量 统计 中 用 样本 推断 总 体 的 理论 依据 。 

【 例 2-33】 钢材 中 的 含 硅 量 尤 是 影响 材料 性 能 的 一 项 重要 因素 。 在 炼 钢 生产 的 过 程 
中 ， 由 于 各 种 随机 因素 的 影响 ， 各 炉 钢 的 含 硅 量 关 是 有 差异 的 。 对 含 硅 量 矶 的 概率 分 布 的 了 
解 是 有 关 钢 材料 性 能 分 析 的 重要 依据 。 某 炼 钢 厂 120 炉 正常 生产 的 25MnSi 钢 的 含 硅 量 〈 单 
位 : %) 如 下 : 


0.86 0.83 0.77 0.81 0.81 0.80 0.79 0.82 0.82 0.81 
0.82 0.78 0.80 0.81 0.87 0.81 0.77 0.78 0.77 0.78 
0.77 0.71 0.95 0.78 0.81 0.79 0.80 0.77 0.76 0.82 
0.84 0.79 0.90 0.82 0.79 0.82 0.79 0.86 0.81 0.78 
0.82 0.78 0.73 0.84 0.81 0.81 0.83 0.89 0.78 0.86 
0.78 0.84 0.84 0.75 0.81 0.81 0.74 0.78 0.76 0.80 
0.75 0.79 0.85 0.78 0.74 0.71 0.88 0.82 0.76 0.85 
0.81 0.79 0.77 0.81 0.81 0.87 0.83 0.65 0.64 0.78 


概率 与 数理 统计 基本 概念 





0.80 0.80 0.77 0.84 0.75 0.83 0.90 0.80 0.85 0.81 
0.82 0.84 0.85 0.84 0.82 0.85 0.84 0.82 0.85 0.84 
0.81 0.77 0.82 0.83 0.82 0.74 0.73 0.75 0.77 0.78 
0.87 0.77 0.80 0.75 0.82 0.78 0.78 0.82 0.78 0.78 


求 23MnSi 钢 含 硅 量 数据 的 经 验 分 布 函 数 。 

经 验 分 布 函数 是 一 种 在 大 样本 条 件 下 估计 变量 分 布 形态 的 重要 工具 。 经 验 分 布 明 数 的 图 
像 与 累积 频率 折线 图 在 性 质 上 是 一 致 的 ， 它 们 的 主要 区 别 在 数据 的 分 组 上 ， 经 验 分 布 函数 处 
理 得 更 加 细 肛 。 

在 应 用 中 ， 可 以 将 经 验 分 布 函数 图 像 与 可 能 的 分 布 类 型 的 分 布 函数 图 像 进行 比较 ， 得 出 
关于 变量 分 布 形态 的 结论 。 

经 验 分 布 函数 图 像 的 MATLAB 绘图 命令 是 cdfplot， 其 输入 参数 为 样本 数据 向 量 ， 有 两 
个 可 选 输出 参数 :第 一 个 是 图 形 句 柄 ; 第 二 个 是 关于 样本 数据 的 几 个 重要 的 统计 量 ， 包 括 样 
本 最 小 值 、 最 大 值 、 均 值 、 中 值 和 标准 差 。 


>> clear 红 

X=[0.86 0.83 0.77 0.81 0.81 0.80 0.79 0.82 0.82 0.81.… 
0.82 0.78 0.80 0.81 0.87 0.81 0.77 0.78 0.77 0.78.… 
0.77 0.71 0.95 0.78 0.81 0.79 0.80 0.77 0.76 0.82.… 
0.84 0.79 0.90 0.82 0.79 0.82 0.79 0.86 0.81 0.78.… 
0.82 0.78 0.73 0.84 0.81 0.81 0.83 0.89 0.78 0.86.… 
0.78 0.84 0.84 0.75 0.81 0.81 0.74 0.78 0.76 0.80.… 
0.75 0.79 0.85 0.78 0.74 0.71 0.88 0.82 0.76 0.85.… 
0.81 0.79 0.77 0.81 0.81 0.87 0.83 0.65 0.64 0.78.… 
0.80 0.80 0.77 0.84 0.75 0.83 0.90 0.80 0.85 0.81.… 
0.82 0.84 0.85 0.84 0.82 0.85 0.84 0.82 0.85 0.84.… 
0.81 0.77 0.82 0.83 0.82 0.74 0.73 0.75 0.77 0.78.… 
0.87 0.77 0.80 0.75 0.82 0.78 0.78 0.82 0.78 0.78]; 

[hstats]=cdfplot(X) 


运行 程序 ， 输 出 如 下 : 


h= 
172.0016 
Stats 一 

min: 0.6400 
max: 0.9500 
mean: 0.8026 
median: 0.8100 

std: 0.0450 


由 图 2-8 可 以 看 出 ， 样 本 经 验 分 布 函数 图 像 上 升 速度 较 快 ， 均 值 与 中 值 接近 ， 图 像 的 $S 
形状 均衡 对 称 ， 均 值 处 函数 值 约 为 0.5。 这 些 特征 表明 ，25MnSi 钢 的 含 硅 量 可 能 服从 均值 为 
0.8026、 标 准 差 为 0.045 的 正 态 分 布 。 
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图 2-8 120 炉 23SMnSi 钢 含 硅 量 数 提 的 经 验 分 布 函数 图 像 


好 分 布 分 为 中 心 扩 分 布 和 非 中 心 好 分 布 两 种 。 

1. 中 心 妇 分 布 

中 心太 分 布 的 随机 变量 由 若干 独立 同 分 布 的 零 均 值 高 斯 变量 的 平方 和 得 出 。 设 有 7 个 
独立 同 分 布 的 零 均值 高 斯 随机 数 x ~ N(0,a?) ，i=12,…,， 则 随机 数 


= 好 (2-32) 
三 
服从 自由 度 的 中 心 巡 分 布 ， 其 概率 密度 函数 为 
1 -1 》 
PO) = 一 -一 一 一 oo - 才 )， y>0 〈2-33 ) 
生 20r 
c2225( 引 
式 中 ，T(Cx) 是 伽 玛 函 数 ， 在 MATLAB 中 可 通过 命令 gamma(x) 求 出 ， 其 定义 是 
Too = ed， x>0 (2-34) 


特别 指出 ， 当 x 为 正 整数 时 ， 有 TU =(x-Db 当 x 为 正 整数 加 上 方 时 ， 有 


[人 旨 - 必 r 全 = 冰 (2-35) 
rm 上 = 2 La 次 (2-36) 


式 中 ，(2m -DTDI=1x3x5x…x(2m-D ， 六 =12… 
自由 度 为 二 的 中 心 好 分布 随机 变量 了 的 期 望 和 方差 分 别 为 
无 (站 = ma (2-37) 
(7) = 2maf (2-38) 
MATLAB 中 给 出 了 ”=1 的 自由 度 为 于 的 中 心 妇 分 布 的 计算 函数 : X 分 布 的 分 布 函数 
chi2cdf， 分 布 函数 的 反 函 数 chi2inv， 概 率 密度 函数 chi2pdf， 随 机 数 发 生 函 数 chi2rnd 和 期 户 
及 方差 计算 函数 chi2stat 等 。 





CEEEESEEERIEERE 





【 例 2-34】 设 某 随 机 变量 服从 正 态 分 布 ， 试 验 得 出 其 10 个 样本 为 
{1490 1440 1680 1610 1500 1750 1550 1420 1800 1580} 
能 和 否认 为 其 期 望 值 由 =1600， 其 方差 cy =14400 〈 取 显著 性 水 平 wc =0.02) ? 





其 实现 的 MATLAB 程序 代码 如 下 : 
>>clear; 
x=[1490 1440 1680 1610 1500 1750 1550 1420 1800 1580]; % 样 本 
m0=1600; % 给 定 的 期 望 什 
n=length(x); % 样 本 数 
xbar=mean(X); % 样 本 平均 
Ss=std(x,1); % 样 本 标准 差 ( 有 信 ) 
al=0.02; % 显 著 性 水 平 
% 期 望 的 假设 检验 
tl=tinv(1-al/2,n-1) % 自 由 度 n-l 的 t 分 布 ay2 分 位 点 
全 (xbar-m0)./(s./sqrt(n-1)) % 计 算 统 计量 
h_mean=(t>abs(t])) % 判 断 : 老 翡 绝 , 则 h_mean 等 于 1 
% 方 差 的 假设 检验 
sig2=14400; % 给 定 的 方差 值 
ch_1=chi2inv(al/2,n-1) %1-al/2 分 位 点 
ch_2=chi2inv(1-al/2,n-1) %al/2 分 位 点 
ch=n*s^2/(sig2) % 计 算 统计 量 
h_var=(ch<ch_l)l(ch>ch_ 2) % 判 断 : 若 拒绝 , 则 h_var 等 于 1 


运行 程序 ， 输 出 如 下 : 


2.8214 % 故 均值 统计 量 接受 区 间 为 〈《-2.8214, 2.8214) 


-0.4427 % 计 算 统计 最 t 在 接受 区 间 内 


h_mean = 
0 % 接 受 假设 ， 即 有 0.98 的 把 握 说 总 体 期 望 为 1600 
ch_l = 
2.0879 
ch 2= 
21.6660 % 故 方差 统计 量 接受 区 间 为 〈2.0879，21.6660) 
ch = 
10.3306 % 计 算 统 计量 ch 在 接受 区 间 内 
h_var== 
0 % 接 受 假 设 ， 即 有 0.98 的 把 握 说 总 体 方差 为 14400 


2. 非 中 心 访 分 布 
非 中 心 好 分 布 的 随机 变量 由 若干 独立 同方 差 的 均值 不 全 为 零 的 高 斯 变量 的 平方 和 得 
出 。 设 有 2 个 独立 的 高 斯 随机 数 x ~ Nm,a") ，i=12,… 汪 ， 其 均值 为 mi ， 方 差 均 为 or ， 


并 设 哇 = 》 mi ， 则 随机 数 
本 








y=》 如 (2-39) 


| 


服从 自 巾 度 为 于 的 非 中 心 她 分布， 其 概率 密度 函数 为 
7-2 
人 ( 三 ] 
27) 2o5? (可 co| 2c 私 峭 冲 二 人 
式 中 ，I。(x) 为 第 一 类 a 阶 修正 贝 赛 尔 函 数 ，MATLAB 提供 的 计算 指令 是 besselila， xj。 自 由 
度 为 半 的 非 中 心 访 分 布 的 随机 变量 了 的 期 望 和 方差 分 别 为 
巨 ( 门 =ma2 +8? (2-41) 
F( 四 =2na4 +4a28? (2-42) 
MAILAB 统计 工具 箱 给 出 了 指令 ncx2pdf， 
ncx2cdf，ncx2inv，ncx2rnd， 以 及 ncx2stat 来 计算 
ao" =1 的 非 中 心 妨 分 布 问题 。 
在 MATLAB 命令 窗口 输入 以 下 代码 ; 
>> X=(0:0.1:10)); 
p1=ncx2pdfx,4,2); 
p=chi2pdfx,4); 
plot(x,p,-- ,xp1,-) 


运行 程序 ， 效 果 如 图 2-9 所 示 。 


设 随机 变量 蕊 和 了 独立 ， 并 且 克 服从 正 态 分 布 W(0,D) ，Y 服从 自由 度 为 半 的 补 分 布 
(概率 密度 函数 为 式 (2-33)， 其 中 a =1)， 则 随机 变量 
FE= 生 (2-43) 
J/m 
服从 自由 度 为 款 的 上 分 布 ， 其 概率 密度 函数 为 
r|( 呈 好 + 
不 2 xX2 1 2 
1= 一 -Pi(x)= (和 (2-44) 
VZ/n mr( 引 


MATLAB 统计 工具 箱 提供 了 分布 的 计算 指令 ， 包 括 tpdf，tcdf，tinv，tmd，tstat 等 。 

当 自 由 度 盖 oo 时 ，# 分 布 将 趋 近 于 标准 正 态 分 布 。 工 程 上 ， 当 靖 > 30 时 ， 即 可 将 上 分 
布 视 为 标准 正 态 分 布 。 

t 分 布 还 可 以 推广 为 非 中 心 的 上 分 布 。MATLAB 统计 工具 箱 也 提供 了 非 中 心 上 分 布 的 计 
算 指 令 ， 包 括 nctpdf，nctcdf，nctinv，nctrmmd，nctstat 等 。 


氏 洒 -分 太 | 


设 随 机 变量 蔚 和 革 相 互 独立 ， 分 别 服从 自由 度 为 说 和 于 的 好 分 布 《 密 度 函 数 为 





图 2-9 非 中 心 妇 分 布 的 概率 密度 函数 














式 (2-33)， 其 中 =1)， 即 邢 ~2(0m) ， 了 ~ 和 (0o) ， 那 么 随机 变量 





_ 2 
三 7 (2-45) 
服从 自由 度 为 (m, 站 的 已 分 布 ， 其 概率 密度 函数 为 
卫 地 站 风 十 下 





让 12 号 2 1 2 
的 X ? (+  X 人 0 《2-46) 
肠 六 


PrO= 一 -2 人 
rr 便 
尺 分 布 常用 于 两 个 独立 访 分 布 随机 变量 相 除 运算 的 问题 。 显 然 ， 一 个 自由 度 为 (mm 的 
严 分 布 随机 变量 的 倒数 也 服从 五 分 布 ， 但 其 自由 度 变 为 (mm) 。 
MAILAB 统计 工具 箱 提供 了 正 分 布 的 计算 指令 ， 包 括 pdf，fedf，finv，frnd，fstat 等 。 
在 MATLAB 命令 窗口 中 输入 以 下 代码 : 


>> y=fpd 信 1:6,2,2) 
y= 
0.2500 0.1111 0.0625 0.0400 0.0278 0.0204 
>> Z 印 df3,5:10,5:10) 
Za 
0.0689 0.0659 0.0620 0.0577 0.0532 0.0487 

下 分 布 还 可 以 推广 为 非 中 心 的 已 分 布 。MATLAB 统计 工具 箱 也 提供 了 非 中 心 尺 分 布 的 

计算 指令 ， 包 括 ncfpdf，ncfecdf，ncfinv，ncfrnd，ncfstat 等 。 

在 MATLAB 命令 窗口 中 输入 以 下 代码 ; 
>> xX=(0.01:0.1:10.01)"; 
pl=ncfpdfx,5,20,10); 
p= 旬 dfx,3,20); 
plot(x,p,-,xp1,:) 


运行 程序 ， 效 果 如 图 2-10 所 示 。 


2.6.6 | 超 几 何 分 布 | 图 2-10 非 中 心 严 分 布 的 概率 密度 函数 


设 一 批 产品 共 M 个 ， 其 中 有 天 个 次 品 ， 则 任意 抽出 的 NGN & MD) 个 样品 中 含有 的 次 品 
数 是 一 个 在 取 值 区 间 [0,m] 上 的 离散 随机 变量 。 如 果 用 X 表示 ， 那 么 蕊 服从 参数 为 M ,天 ,N 
的 超 几何 分 布 。 若 次 品 数 为 x 的 概率 用 P(X =z= 已 (M,K,N) 表 示 ， 则 





四 
PN - 
RU,K,N)=、 7， x = 0,N (2-47) 


N 


MATILAB 统计 工具 箱 提 供 了 超 几 何 分 布 的 计算 指令 ， 包 括 hygepdf，hygecdf， 
hygeinv，hygernd，hygestat 等 。 

【 例 2-35】 如 果 100 张 软盘 ， 其 中 20 张 是 坏 盘 ， 那 么 抽 10 张 出 来 ， 坏 盘 的 张 数 是 0 一 
5 张 的 概率 分 别 是 多 少 呢 ? 








在 MATLAB 命令 窗口 输入 以 下 代码 : 
>> p=hygepdf0:S,100,20,10) 


运行 程序 ， 输 出 如 下 : 


p= 
0.0951 0.2679 0.3182 0.2092 0.0841 0.0215 





正 态 分 布 
设 连 续 型 随机 变量 成 的 概率 密度 函数 为 
_《X-A 
| e 访 一 oo <X < +oo 《2-48) 





7 ? 
式 中 ，Hma (aG>0) 为 常数 ， 则 称 郊 服从 参数 为 如 or 的 正 态 分 布 或 高 斯 (Gauss) 分 布 ， 记 
为 孔 ~ No) 。 
由 式 〈2-48) 得 蕊 的 分 布 函 数 为 


(CA 


天 (x) = e 2 di (2-49) 


_L 
ES 

特别 地 ， 当 wk=0，a=1 时 ， 称 苞 服 从 标准 正 态 分 布 。 其 概率 密度 函数 和 分 布 函数 分 别 
用 wo(x) ，@(x) 表示 ， 即 有 





T 进 
思 =-L (2-50) 
W 人 5 
oo)=- 5 (2-51) 
V2T -= 


易 知 @(-xz)=1-@(r) 。 
GO(x) 的 函数 表 可 参考 附录 A。 
一 般 情 况 下 ， 若 七 ~ N(ma2) ， 只 要 通过 一 个 线性 变换 就 能 将 它 化 成 标准 正 态 分 布 。 


定理 2-8 若 X~ No ， 则 Z = 二 -4-~ N(0.D 。 


证 明 ，Z = 全 -和 的 分 布 函数 为 








大 一 1 Ap+0 
Ptzs 妇 = 吕 | < 中-PUs + OxX} = 一 一 一 e 2 dt 
Z 由 V2ra 





P{Z 和 对 = ezdux = GO 


1 
3 


由 此 知 了 = 一 勾 ~ N(0.) 








于 是 ， 若 站 ~ NUus,a2) ， 则 它 的 分 布 函数 F(x) 可 写成 
FO=POC<=P 人 < 二 全 =-e| 


对 于 任意 区 间 (x ,六 ] ， 有 


Pfx <sai=p 人 | < 人 “< 人 -ol 2 -ol 
CT CT C 


CT C 


为 了 便于 应 用 ， 对 于 标准 正 态 随机 变量 ， 引 入 了 c 分 位 点 的 定义 。 


设 忒 ~N(0D) ， 若 2 满足 条 件 
P{ 人 >Z =x，0<aw<1l 
则 称 点 Z。 为 标准 正 态 分 布 上 的 c 分 位 点 。 
【 例 2-36】 生成 正 态 分 布 的 随机 数 。 
其 实现 的 MATITLAB 程序 代码 如 下 : 


>> clear; 
“% 设 置 正 态 分 布 的 参数 
mu0=log(1000); 
sigma0=1; 
% 产 生 len 个 随机 数 
len=5; 
yl=normnmd(mu0,sigma0,[] len]) 
% 产 生 P 行 Q 列 的 短 阵 
P=3;Q=4; 
y2=normmd(mu0,sigma0,P,Q) 
% 显 示 正 态 分 布 的 柱状 图 
M=1000; 
y3=normmd(mu0,sigma0,[1,MD]); 
figure; 
人 t0:0.1:max(y3); 
hist(y3,b; 
axis([0 max(y3) 0 S0]); 
xlabel(' 取 值 );ylabel(' 计 数值 ]; 


运行 程序 ， 输 出 如 下 ; 


y1 二 

6.4752 ”5$.2422 ”7.0331 ”7.1954 5$.7613 
允 = 

8.0987 “7.2350 ”7.6335 6.7714 

8.0969 “7.0824 ”6.3194 ”7.0217 

6.8701 ”6.7210 9.0909 ”7.9745 


正 态 分 布 的 柱状 图 如 图 2-11 所 示 。 


X 一 尼 


《2-52) 


《2-53 ) 


正 态 分 布 在 概率 论 中 起 着 非常 重要 的 作用 ， 在 各 种 分 布 中 ， 它 居于 首要 地 位 。 在 实际 中 
常常 遇 到 一 些 变量 ， 它 们 的 分 布 近似 于 正 态 分 布 。 例 如 ， 在 同一 生产 条 件 下 制造 的 电灯 泡 ， 











使 用 时 数 蕊 随 着 每 个 灯泡 而 不 同 。 璧 如 说 ， 第 - 
个 可 用 1200h， 第 二 个 可 用 1280h 等 ， 因 此 工 总 
是 一 个 随机 变量 。 实 践 证 明 ，X 的 分 布 是 近似 正 
态 的 。 俗 话说 的 “中 间 大 ， 两 头 小 ”就 是 正 态 分 an 
布 的 一 个 性 质 。 一 般 来 说 ， 在 生产 条 件 不 变 的 前 
提 下 ， 许 多 产品 的 某 些 量度 〈 如 青 砖 的 抗 压强 ”nm 
度 、 细 纱 的 强力 、 螺 钉 的 口径 等 ) 都 近似 地 服从 | 
正 态 分 布 。 这 种 情况 在 许多 自然 科学 领域 中 都 存 
在 。 例 如 ， 热 力学 中 理想 气体 分 子 的 速度 分 量 、 ai 
射击 时 命中 位 置 对 目标 沿 某 些 标 轴 的 偏差 、 物 理 人 
学 中 测量 同一 物体 的 测量 误差 、 生 物 学 中 同一 生物 机 体 的 某 一 量度 〈 如 身长 、 体 重 )、 某 地 
区 一 年 中 的 降水 量 等 ， 都 是 如 此 。 

上 述 各 种 量 有 一 共同 特点 ;它们 可 以 被 看 成 许多 微小 、 独 立 的 随机 因素 的 总 后 果 。 例 
如 ， 灯 泡 的 使 用 时 数 受 原料 、 工 艺 、 保 管 条 件 等 因素 的 影响 ， 而 每 种 因素 ， 在 正常 情况 下 ， 
都 不 能 起 代替 一 切 的 主导 作用 。 具 有 这 种 特点 的 变量 一 般 都 可 被 认为 服从 正 态 分 布 ， 这 一 结 
论 的 准确 的 数学 叙述 见 3.5.3 节 的 中 心 极限 定理 。 


正 态 总 体 的 样本 均值 与 与 样本 方差 的 分 布 


确定 某 个 统计 量 的 分 布 不 仅 困难 ， 有 时 甚至 是 不 可 能 的 。 现 在 ， 我 们 对 总 体 称 服从 正 态 
分 布 的 情形 已 经 有 了 详细 的 研究 ， 下 面 讲解 服从 正 态 分 布 的 总 体 的 统计 量 的 分 布 。 若 样本 函 
数 g( 4 和 于, 光 ) 含 有 未 知 量 时 ， 则 应 称 为 样本 函数 的 分 布 。 

《1) 单个 正 态 总 体 的 统计 量 的 分 布 

设 总 体 芯 〈 不 管 服从 什么 分 布 ， 只 要 均值 和 方差 存在 ) 的 均值 为 4L， 方 关 为 c" ， 设 

沁 和 是 来 自考 的 一 个 样本 ， 孝 ，8 是 样本 均值 和 样本 方差 ， 则 总 有 








计数 值 
名 











EC)=4，D(OZ)= 所 (2-54) 
而 
E(S2)= 中 十 [ 袜 - 吧 ] -大 六 op-naam 
= i=! 
2 
- 圳 |c +A)- 元 :2]-= 
即 
天 (CS2)= ar 
定理 2-9 设 和 六 , 交 ，, 筷 ,是 来 自 正 态 总 体 Nu,a2) 的 样本 ， 闷 是 样本 均值 ， 则 有 
龙 ~ x| “和 | (2-55 ) 


定理 2-10 设 六 ,加 ,和 是 来 自 正 态 总 体 W(pa2) 的 样本 ， 闷 是 样本 均值 ， 则 有 





又 因为 如 ,大 , 相互 独立 ， 所 以 二 一 一 


CEEEEEERTEESTS 


Z - 卫 -4_NoD (2-56) 


oa/ vVn 


上 过 上 区 -4_ No 
|， 所 以 将 兄 标准 化 ， 即 得 二 天 帮 -NOJD 





证 明 ， 由 定理 2-9 知 - vv 
定理 2-11 设 总 ,克成 ,是 总 体 N(ua2) 的 样本 ， 则 有 
字 = 点 六 一 /2 ~ 22(n) (2-57) 
证 明 ， 因 为 区 ~ N(Ao2)， 所 以 
全:~- NOD， 2 (2-58) 


惊 - 人 洗 …, 全 二 儿 也 相互 独立 ， 于 是 由 轨 分 布 


的 定义 ， 可 知 


好 于 加 2 
Xi = 访 ( 一 /人 - 靖 ~ 和 (站 
i1 


一 


定理 2-12 设 避 ,对 和 是 总 体 NOa ) 的 样本 ， 乏 ，8 分 别 是 样本 均值 和 样本 方 


差 ， 则 有 
1) 过 与 8 独立。 
2) 大 = 到 -zzo-D: 
这 里 定理 的 证 明 从 略 ， 仅 对 自由 度 作 一 些 说 明 : 由 样本 方差 8? 的 定义 易 知 
(7 一 DS? -yi 一 已) 
i] 
所 以 有 


_-DS 2 < 龙 一 下 
-上 -2 


虽然 是 个 随机 变量 的 平方 和 ， 但 这 上 针 机 六 于 不 EYE 


由 于 受 


于 - 引 妆 x- - 史 j- 0 
| 

到 一 个 条 件 的 约束 ， 所 以 自由 度 为 -1。 

定理 2-13 设 半生 和 是 总 体 N(a) 的 样本 ， 雹 ，82 分 别 是 样本 均值 和 样本 方 


则 有 





~K2 一 JJ) 〈2-59) 


2 
证 明 : 由 定理 2-10 知 














因为 站 与 相互 独立 ， 所 以 f= 2 人 与 到 = 号- 虹 也 相互 独立 ， 于 是 由 /分布 的 定义 知 


- 和 
5 az- 





化 简 上 式 左 边 ， 即 得 





~ 上 (2 一 ]) 


(2) 两 个 正 态 总 体 的 统计 量 的 分 布 


对 于 两 个 正 态 总 体 的 样本 均值 和 样本 方 益 有 以 下 的 定理 。 设 大, 


加 与 


世 , 六 区 分 别 是 来 自 正 态 总 体 NU,a?) 和 N(,aa) 的 样本 ， 假 设 所 有 的 抽样 都 是 相互 独 
立 的 。 由 此 得 到 样本 六 人 =12… 兽 ) 与 孔 O7 =L2…, 交 ) 都 是 相互 独立 的 随机 变量 。 设 


冯 - 直 守 ， 了 -直立 7 分 别 是 这 两 个 样本 的 均值 ， 导 = 六 O -站 7 ， 
L=! [= 沁 


-| 》 (7 将? 分别 是 这 两 样本 的 样本 方差 


定理 2-14 ” 设 总 体 苞 服从 正 态 分 布 WwW ,oa2) ， 总 体 了 ~ N(m ,az) ， 则 有 
(无 - 妨 -( 一 铺 ) 


蕊 一 2 2 
2 
和 和 2 
服从 标准 正 态 分 布 W(0,D ， 
5 
1 j 


证 明 : 由 定理 2-9 知 


局 = mL ~ N(0.1 
全 帮 


下 j 





(2-60) 


以 概率 与 数理 统计 基本 概念 





特别 地 ， 当 a 二 CO2 =C 时 ， 可 得 如 下 推论 。 
推理 2-1 设 总 体 苑 服从 正 态 分 布 NUn,a") ， 总 体 了 服从 正 态 分 布 NU,o") ， 则 有 
7- (无 - 态 -( 一 包 ) 


风 。 了 他 ) 
1 7 这 
服从 自由 度 为 古 + 殊 -2 的 上 分 布 ， 即 


人 人 二 人 (2-61) 


Sy | 一 上 + 一 


其 中 


(四 一 DS +(D 一 132? 


病 本 2 〈2-62) 


5 = 


证 明 : 由 定理 2-14 的 推论 可 知 


-= 区-I-W- 和 wo 


又 由 定理 2-12 知 
2 
包 二 im- 
CT 
因为 8 与 8: 相互 独立 ， 所 以 由 入 分布 的 可 加 性 知 
(由 一 DS2 十 ( 冯 一 DS2 
C: 

因为 忒 与 人 相互 独立 ， 斑 与 8 ， 所 以 吉 与 天 也 相互 独立 ， 于 是 由 上 分 布 的 定义 可 知 
L7 _ (元 -六 -= 已 ) 

矿 1 1] 

于 后 二 


定理 2-15 设 总 体 苑 服从 正 态 分 布 WU,az) ， 总 体 了 服从 正 态 分 布 N(,a2) ， 则 有 
yx 一 和 大/ mo 
书 _ =| 


0 /mo 
7=1 


1 一 1)S2 
oa mw- 
C 


矿 = 


一 和 (站 十 妨 一 2) 


7 = ~8 十 ]2 一 2) 





服从 自由 度 为 (mi) 的 已 分 布 ， 即 


必 
2 (和 -Am 
严 = 把 一 Fn) (2-63) 


YU 一 AD) /cat 
7=1 








证 明 : 由 定理 2-11 知 


-于 六 OA 一 2 


5 全 
= 上 》( -AP 一 (ma) 
吧 生 | 


因为 所 有 的 总 与 总 都 是 相互 独立 的 ， 所 有 的 与 好 也 相互 独立 。 于 是 ， 由 下 分 布 定 义 知 


= 六 = TAO) 
0 Am 


1 


定理 2-16 ” 设 总 体 克服 从 正 态 分 布 NU ,az) ， 总 体 了 服从 正 态 分 布 WU ,a2) ， 则 有 
2 /cr 








忆 = 马 /cy 服从 自由 度 为 on -1 思 -D 的 严 分 布 ， 即 
S:1a: 
S2/a7 
已 = 上 1 一 瓦 本 二 
一 Ra 下 (2-64) 
证 明 ;， 由 定理 2-12 知 
2 
好 = 镍 和 ~N20- 
OI 
7 ?20 二 人 
2 


-因为 8 与 $: 相互 独立 ， 所 以 从 与 和 窒 也 相互 独立 。 于 是 ， 由 瓦 分 布 的 定义 知 


六 -ma-D _ 3/ 
好 /oa -1) 本 C2 





了 一 天 (一 PP 一 JJ) 


【 例 2-37】 设 忆 ,友和 , 冯 为 总 体 筷 ~ en -个 样本 ， 未 立 妇 >4， 


友 ] 


解 : 因为 郧 ~ N(0,0.3)，i=12… 


三 一 0 
-人 ~-NOD 


7 2 
由 好 分布 的 定义 知 ， 人 X2(7) ， 所 以 有 
i1 


2 和 4 
?| - 直 - "| 写 -| 


查 表 得 ， 扩 os (7)=16.013 ， 即 得 所 求 概 率 


7 
2 > | = 0.025 


f=! 











SEEEFERERTERE 


概率 密度 函数 对 比 一 一 直方 图 估计 法 
数据 样本 的 频率 直方 图 是 一 种 近似 求解 样本 概率 密度 函数 的 图 解 方法 ， 也 常用 于 随机 数 
分 布 的 验证 中 。 
设 仿真 得 出 的 半 个 样本 数据 为 fo ,zx}， 其 样本 取 值 范围 为 


[ae, 避 =[minx,maxx'] (2-65) 








为 了 得 到 样本 分 布 的 频率 直方 图 ， 首 先 将 区 间 [w, 妇 划分 为 疡 个 等 间隔 的 分 组 区 间 ， 分 
割 点 靖 〈E=0,1…,ma) 为 
Q= 轴 < 在 <…< 轴 = (2-66) 
分 割 宽度 为 


2 证 01557El (2-67) 
117 


然后 统计 样本 数据 落 入 区 间 [zzs) 中 的 个 数 六 〈 称 为 频数 )， 再 计算 出 对 应 的 频率 
万 =/2。 当 样本 总 数 靖 充分 大 时 ， 频 率 厂 趋 近 于 随机 变量 上 在 该 区 间 的 概率 ， 即 


从 == 广 


计 | 





一 二 = 


矿 =<PU 入 上 <th) (2-68) 

设 随 机 变量 # 的 概率 密度 函数 为 大 (xz) ， 则 有 
Pfr<e<t}= 亿 大 CDdxs 大 (Ce)A (2-69) 

所 以 就 可 以 用 样本 频率 来 估计 其 概率 密度 函数 
CD)= 业 = 五 ， Xe 人 tt)，i=01…m-1 (2-70) 


根据 上 式 作出 直方 图 ， 与 已 知 分 布 的 概率 密度 函数 对 比 ， 即 可 直接 地 辨识 样本 所 服从 的 
分 布 关 型 。 当 样本 数 靖 一 o ，A 一 0 时， 样本 频率 直方 图 将 趋 近 于 概率 密度 函数 。 

然而 ， 仿 真得 出 的 样本 数 总 是 有 限 的， 这 样 在 直方 图 法 中 如 何 选择 分 割 区 间 宽 度 就 显得 
格外 重要 了 。 如 果 区 间 选 得 太 宽 ， 直 方 图 将 显得 粗糙 ;分 割 区 间 过 细 ， 则 直方 图 的 平滑 性 不 
够 好 。 实 际 应 用 中 可 以 多 选择 几 种 分 割 宽度 ， 从 多 种 直方 图 的 结果 中 直观 地 判断 并 选取 比较 
平滑 而 且 又 比较 精细 的 直方 图 作为 结果 ， 样 本 数 越 多 ， 可 选择 越 小 的 分 割 区 间 。 在 实践 中 发 
现 ， 有 些 情 况 下 ， 选 择 直 方 图 分 割 区 间 数 近似 等 于 样本 数据 个 数 的 平方 根 值 时 得 出 的 直方 图 





较 好 ， 即 选择 
m=| Van| 《2-71) 
A=2。 (2-72) 
MAILAB 中 提供 了 直方 图 的 计算 和 作 图 函数 hist。 
hist 函数 的 调用 格式 如 下 : 


[". xout]=hist(Y, f) 
[" xoutjFhist(Y,mbins) 





< 过 75 





其 中 ，[r xoutj=hist(Y b: 其 中 了 为 样本 向 量 ; ! 是 分 割 区 间 向 量 ; > 是 统计 输出 的 频 
数 ，xonut 是 分 割 区 间 向 量 ， 等 于 向 量 汪 [rz xoutj=hist(Ymbins): mbins 是 分 割 的 区 间 数 。 
【 例 2-38】 试 产 生 自 由 度 为 (四 =3, 办 =5) 的 下 分 布 随机 数 ， 并 用 直方 图 法 进行 检 


验 。 设 随机 数 样本 数量 为 9999。 
其 中 使 用 了 frnd 函数 来 产生 已 分 布 的 随机 数 ， 以 hist 函 数 进行 直方 图 的 频数 统计 ， 然 后 
转换 为 频率 数据 ， 作 出 直方 图 ， 并 修改 直方 图 的 样式 ， 最 后 以 fpdf 函数 计算 理论 概率 密度 函 








数 并 作 图 比较 。 
在 M 文件 编辑 器 中 输入 以 下 代码 。 

有 本 m=200 的 频率 密度 直方 图 
nl=4;n2=5; % 环 分 布 参数 曾 
n=10000; % 随机 数 样本 数量 0.8 
x=frnd(n2,nl,n,1); % 随 机 数 样 木 产生 06|A 
a=min(x); b=max(x); %% 样 本 值 域 区 间 计 算 降 | 
m=200; % 分 组 区 间 数 or m=500 等 
de=(b-aj/mi % 分 组 宽度 并 
[cxoutj=hist(x,[a:de:b]))  % 计 算 直 方 图 数 撕 0 人 1 
仁 rJ(n*de); % 计 算 统 计 频 率 密度 
bar(xout.f; % 作 出 频率 密度 直方 图 人 
hold on; m=500 的 频率 密度 直方 图 


h=findobj(gca"Type',patch'); % 修 改 直方 图 样式 1 六 四 | 
set(hfacecolor,[0.6,0.6,0.6].edgecolorvk; 
x=0:0.01:10; % 计 算 并 画 出 已 分 布 的 理论 概率 密度 函数 曲线 
y=fpdfx,n2,nl); 

plot(Xxy,k-)》; 

axis([0 10 0 1]); 

title(m=200 的 类 率 密度 直方 图 ); 


0 2 
运行 程序 ， 效 果 如 图 2-12 所 示 。 图 中 分 别 给 出 了 分 割 b 
区 间 数 为 200 和 500 的 直方 图 结果 。 图 2-12 随机 分 布 的 直方 图 检验 


要 al) m=200 的 绘图 b) m=5S00 的 绘图 
2.7 ”统计 检验 


在 大 多 数 情 况 下 ， 分 析 测 试 都 是 采取 抽取 检验 ， 通 过 样本 测试 对 总 体 的 某 个 或 某 些 特征 
进行 估计 和 作出 推断 。 统 计 推断 包括 参数 估计 与 假设 检验 。 参 数 估计 与 假设 检验 是 互 有 联系 
而 又 有 区 别 的 两 类 统计 推断 ， 参 数 估计 是 随机 变量 分 布 函数 已 知 ， 需 通过 样本 估计 分 布 的 参 
数 。 如 果 不 知道 随机 变量 分 布 的 函数 形式 ， 只 能 假设 其 具有 某 种 分 布 形式 ， 假 设 是 否 合理 ， 
需 根 据 样本 值 通过 检验 分 布 参数 来 推断 其 是 否 正确 ， 属 于 假设 检验 。 


统计 检验 的 基本 原理 
统计 检验 依据 的 是 小 概率 原理 。 所 谓 小 概率 原理 ， 是 指 概率 很 小 的 事件 在 一 次 抽样 检验 


中 实际 上 是 不 可 能 发 生 的 。 
令 检 验 统计 量 为 














章 、 外 浴 


了 =7T(Or) (2-73 ) 
式 中 ，7 是 样本 值 和 被 估 参 数 的 函数 ， 不 包括 未 知 值 。 在 原 假设 成 立时 ， 检 验 统计 量 7 的 概 
率 密度 函数 po(7) 已 知 ，g(x) 在 某 个 区 域 w 的 概率 为 


PUTew)= 味 ol(T)dT7 = (2-74) 


巡 取 值 通常 很 小 (a es (0.05，0.01))， 因 此 当 原 假设 为 真 时 ，7 在 区 域 w 内 是 一 个 小 
概率 事件 。 根 据 小 概率 原理 ， 在 一 次 抽样 检验 中 几乎 是 不 可 能 发 生 的 ， 如 果 发 生 了 ， 则 有 理 
由 认为 原 假 设 不 正确 ， 这 时 应 在 显著 性 水 平 c 下 拒绝 原 假设 瓦 ， 而 接受 备 择 假 设 刀 。 此 
时 ，w 称 为 拒绝 域 ， 拒 绝 域 的 边界 值 称 为 临界 值 。 

在 假设 检验 时 ， 存 在 两 类 错误 。 第 一 类 错误 是 当 原 假设 为 真 时 而 拒绝 原 假 设 ， 又 称 为 奔 
真 错 误 。e 为 犯 假设 检验 第 一 类 错误 的 概率 ，(1-c ) 为 原 假 设 为 真 时 作出 正确 判断 的 概 
率 。 第 二 类 错误 就 是 原 假 设 不 成 立 而 错误 地 接收 原 假 设 忌 , ， 也 称 为 取 伪 错误 。 犯 第 二 类 错 
误 的 概率 记 为 8 。 因 为 统计 量 是 随机 变量 ， 因 此 即使 原 假 设 态 不 成 立 ， 一 次 抽样 检验 得 到 
的 统计 量 了 值 也 有 一 定 概率 落 在 〈 灭 -w) 区 域内 ， 则 
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式 中 ， 矿 为 统计 量 了 不 可 能 取 值 的 区 域 。 

统计 检验 的 基本 方法 是 概率 论 反 证 法 ， 即 先 成 立 假 设 ， 然 后 根据 小 概率 原理 进行 反 证 。 
统计 检验 的 一 般 步骤 如 下 ; 

1) 根据 具体 问题 的 要 求 ， 建 立 原 假设 瓦 和 备 择 假设 净 。 

2) 选择 合适 的 检验 统计 量 。 

3) 选 定 显著 性 水 平 w ， 确 定 拒绝 域 w 。 

4) 根据 样本 值 计 算 统 计量 值 。 

5) 根据 小 概率 原理 ， 使 用 概率 论 反 证 法 进行 统计 推断 。 若 统计 量 值 落 在 拒绝 域内 ， 则 
拒绝 原 假 设 束 , ， 而 接受 备 择 假设 局 ; 若 落 在 非 拒绝 域内 ， 则 接受 原 假 设 瑟 , ;， 若 落 在 拒绝 
域 与 非 拒 绝 域 的 边界 ， 则 怀疑 原 假设 玉 ， 此 时 最 好 继续 进行 试验 ， 获 得 更 多 的 信息 ， 以 便 
作出 正确 的 统计 推断 。 

异常 值 检验 | 

在 一 组 测定 值 中 ， 有 时 会 发 现 一 个 或 几 个 测定 值 明显 地 离 群 ， 比 其 他 的 测定 值 明 显 地 偶 
大 或 往 小 ， 称 为 离 群 值 。 离 群 值 可 能 是 由 实验 条 件 改变 、 尚 不 为 人 所 知 的 新 现象 突然 出 现 以 
及 系统 错误 等 因素 造成 的 异常 值 ， 也 可 能 是 由 随机 误差 引起 的 测定 值 波动 而 产生 的 极 值 。 若 
为 前 者 ， 表 明 离 群 值 与 其 余 的 测定 值 不 属于 同一 总 体 ， 应 判 为 异常 值 ， 若 为 后 者 ， 尽 管 极 值 
明显 地 偏 大 或 仿 小 ， 但 在 统计 上 仍 处 于 合理 的 误差 限 内 ， 与 其 余 测定 值 属于 同一 总 体 ， 不 能 
将 其 列 为 弄 常 值 。 本 节 介 绍 的 异常 值 检验 方法 都 是 建立 在 随机 样本 测定 值 服 从 正 态 分 布 和 小 
概率 原理 基础 上 的 。 

异常 值 的 检验 可 分 为 两 类 : 一 类 是 标准 差 已 知 ， 另 一 类 是 标准 差 未 知 。 

1， 标 准 已 知 

《1) 两 倍 和 三 倍 标准 差 检验 法 








根据 正 态 分 布 ， 出 现 偏差 大 于 两 倍 标准 差 〈2c ) 和 三 倍 标准 差 〈3c ) 的 测定 值 的 概 
率 ， 分 别 小 于 5% 和 0.3% 是 一 个 小 概率 事件 。 如 果 离 群 值 的 偏差 大 于 两 倍 或 三 倍 标准 差 ， 则 
该 离 群 值 应 判 为 异常 值 。 

如 果 不 知 道 c ， 而 样本 大 于 30 时 ， 可 直接 由 样本 值 计 算 标准 差 s， 代 替 ce 来 进行 检验 。 

(2) ASTM 检验 法 

美国 材料 试验 协会 提出 了 一 个 检验 离 群 值 的 方法 ， 其 检验 统计 量 为 


太 = 吃 - 习 (2-76) 
CT 


式 中 ， 加 是 被 检验 的 异常 值 ， 蕊 是 一 组 测定 值 的 平均 值 ，c 是 已 知 的 标准 差 。 若 统计 量 的 
值 大 于 相应 显著 性 水 平 w 下 的 临界 值 冰 ， 则 将 xz 判 为 异常 值 。 


(3) NAUR 检验 法 
若 石 冬 六 乏 … 所 区 为 按 大 小 排列 的 一 个 样本 值 ， 它 服从 N(pa2) ， 则 检验 统计 量 为 
R = 苞 - (2-77) 
CT 
当 计算 的 R, 值 大 于 相应 显著 性 水 平 x 下 的 临界 值 R。, ， 则 将 xx 判 为 异常 值 。 
2. 标准 差 未 知 
(1) 5 检验 法 


将 可 疑 测 定 值 zx 以 外 的 其 余 测 定 值 当做 一 个 总 体 ， 并 假设 该 总 体 服从 正 态 分 布 。 由 这 
些 测定 值 计算 平均 值 芝 与 标准 差 *， 而 将 可 疑 值 zy 当做 一 个 样本 容量 为 1 的 特殊 总 体 。 如 果 
阅 与 其 余 测定 值 同 属于 一 个 总 体 ， 则 它 与 其 余 测 定 值 之 间 不 应 有 显著 性 差异 。 检 测 统计 量 为 


r- 凶 -党 (2-78) 


震 统 计量 的 值 大 于 相应 显著 性 水 平 we 下 的 z 检 验 法 的 临界 值 冰 ， 则 将 x, 判 为 异常 值 。 

〈2) 极 差 检验 法 

可 用 极 差 R = xma - xm 来 估计 标准 差 s， 因 此 可 用 极 差 来 进行 异常 值 检 验 ， 统 计量 为 
如 = 色 - 习 (2-79) 

若 统计 量 的 值 大 于 相应 显著 性 水 平 K 下 的 极 差 检 验 法 的 临界 值 训 xs ， 则 将 六 判 为 异 


不 同 检验 方法 的 检验 功效 不 同 ， 适 用 的 场合 也 不 同 。 一 个 离 群 值 是 否 判 为 异常 值 ， 与 统 
计 检 验 时 采用 的 检验 标准 有 关 。 


2.7.3 方差 检验 | 


当 对 一 试 样 进行 多 次 重复 测定 时 ， 由 于 受到 各 种 因素 的 影响 ， 测 定 值 产 生 随机 波动 ， 随 
机 波动 的 大 小 ， 反 映 了 测试 条 件 的 稳定 性 和 测定 结果 的 精确 度 。 可 用 方差 来 度量 。 方 差 检验 
的 日 的 就 是 要 从 统计 上 检验 与 判断 各 方差 之 间 是 否 存在 显著 性 差异 ， 从 分 析 测 试 的 角度 来 
看， 也 就 是 要 判断 各 分 析 方法 或 分 析 结果 的 精密 度 是 否 一 致 。 方 差 检验 在 工业 生产 过 程控 


ESEETEZE 区 TS 





制 、 保 证 产品 质量 、 保 证 数据 的 可 比 性 等 方面 具有 重要 的 作用 。 
1， 一 个 总 体 方差 的 检验 


若 交 ,已 ,2 为 服从 正 态 分 布 (usa?) 的 一 个 样本 值 ， 则 》"G -A/o = Oa-Ds /or 
1 
为 服从 自由 度 为 上 = 7-1 的 妇 2 分 布 ， 总 体 方差 ex 的 置信 区 间 为 





2 _1Ne2 ， 
(7 二 本 _ 0 
oj2 -oj2 
2 
Per < 下 < 克 | =1-a (2-81) 
CT 


当 只 有 一 个 总 体 ， 且 总 体 方差 已 知 时 ， 可 用 式 〈2-81) 来 检验 总 体 方差 。 统 计 检验 的 
假设 为 
二 (2-82) 
盏 :oral 
2. 两 个 总 体 方差 的 检验 
若 症 ,2 为 服从 正 态 分 布 NU,oz) 的 一 个 样本 值 ， 儿 ,万 ，… 罗 为 服从 正 态 分 布 
N(,a2) 的 一 个 样本 值 ， 则 有 
Sa 
本 
统计 检验 的 假设 为 ~ 
2 


: 02 - 
厂 0 :ai =03 





Fn -57 一 


(2-83) 
万 :0 关 G2 

当 原 假设 贡 真 时 ， 已 = 82/S: 可 用 来 检验 总 体 方差 的 齐 性 。 式 中 ，Si 是 两 个 方差 中 较 
大 的 一 个 ，$, 是 较 小 的 一 个 。 统 计量 已 > 书 ， 而 落 在 拒绝 域 的 概率 为 cx 。 

3. 多 个 总 体 方 差 的 检验 

假设 有 六 个 总 体 ， 分 别 服从 正 态 分 布 N(U ,oa ) Na2) ， 由 普 个 总 体 中 分 别 独立 
地 抽取 容量 为 出,mP,，…mm 的 样本 ， 各 样本 的 方差 为 品 ,92，…s2 。 现 在 要 检验 

局 :o =a=a2 (2-84) 


常用 的 方法 有 Bartlett 检验 法 、Cochran 检验 法 、Hartley 检验 法 和 极 差 比较 检验 法 。 


区 分 布 拟 合 检验 | 

在 实际 工作 中 ， 有 时 并 不 知道 总 体 服 从 什么 分 布 ， 这 就 需要 根据 样本 数据 来 检验 总 体 的 
分 布 形式 ， 称 为 分 布 拟 合 检验 ， 其 中 最 常见 的 是 总 体 分 布 正 态 性 检验 。 常 用 的 方法 有 正 态 概 
率 纸 法 、 入 检验 法 等 。 

【 例 2-39】 从 一 批 滚珠 中 随机 抽取 50 个 ， 测 得 它们 的 直径 〈 单 位 : mm) 为 


15.0,15.8,15.2,15.1,15.9,14.7,14.8,15.5,15.6,15.3， 








理 统计 分 析 





15.1,15.3,15.0,15.6,15.7,14.8,14.5,14.2,14.9,14.9， 
′ 15.2,15.0,15.3,15.6,15.1,14.9,14.2,14.6,15.8,15.2， 
15.9,15.2,15.0,14.9,14.8,14.5,15.1,15.3,15.5,135.1， 
15.1,15.0,15.3,14.7,14.5,15.5.15.0,14.7,14.6,14.2 


是 否 可 以 认为 这 批 滚珠 的 直径 服从 正 态 分 布 呢 〈cw =0.05) ? 求 出 总 体 的 均值 。 

分 析 : 该 问题 可 归结 为 正 态 分 布 拟 合 的 检验 问题 ， 且 样本 较 大 ， 选 用 命令 jbtest()， 显 著 
性 水 平 k = 0.05。 

其 实现 的 MATLAB 程序 代码 如 下 : 


Clear; 

X=[15.0,15.8,1S.2,15.1,15.9,14.7,14.8,15.5,15.6,15.3,. 
15.1,15.3,15.0,15.6,15.7,14.8,14.5,14.2,14.9,14.9…. 
15.2,15.0,15.3,15.6,15.1,14.9,14.2,14.6,15.8,15.2…. 
15.9,15.2,15.0,14.9,14.8,14.$,15.1,15.5,15.3,15.1,…, 
15.1,15.0,15.3,14.7,14.5,1S.5,15.0,14.7,14.6,14.2]; 

[h,P,Jbstat,CV]=jbtest(X,0.05) 


mu=mean(X) 
运行 程序 ， 输 出 如 下 : 
“hh = 0 
P= 0.5000 
Jbstat = 0.4573 
CV= 4.9697 
mu= 15.0780 


/=-0 表示 在 显著 性 水 平 w =0.05 下 接受 原 假设 ， 且 已 = 0.5000 表明 接受 假设 的 概率 也 很 
大 ， 测 试 值 Jpbstat = 0.4573 小 于 临界 值 CY = 4.9697， 所 以 接受 原 假设 。 此 时 ， 均 值 为 mx 
= 15$.0780。 
【 例 2-40】 淮河 流域 历史 上 经 常 发 生 洪水 灾害 ， 据 统计 1949 一 1991 年 淮河 流域 成 灾 面 
积 〈 单 位 : 万 亩 ) 每 年 总 计 分 别 为 
3383.4 4687.4 1631.1 2244.5 2011.7 6123.1 1918.0 6232.4 
5453.9 1412.4 321.$ 2185$.0 128S.4 4079.6 10124.2 SS32.7 
3809.3 389.4 412.1 809.7 870.6 1055.7 1451.8 1532.9 765.9 


1987.6 2765.5 739.9 515.6 428.4 3794.5 242.3 4812 2204.7 
4407.1 2885 1124.7 1190 191.4 2227.9 2079 6934.1 


试 检验 全 流域 的 成 灾 面 积 是 否 服从 正 态 分 布 ? 
分 析 : 该 问题 可 雪 结 为 正 态 分 布 拟 合 的 检验 问题 ， 分 别 选 用 概率 纸 法 与 命令 jbtest 检验 。 
其 实现 的 MATLAB 程序 代码 如 下 ; 

>> clear; 

X=[3383.4 4687.4 1631.1 2244.5 2011.7 6123.1 1918.0 .6232.4.. 


5453.9 1412.4 321.$ 2185.0 1285.4 4079.6 10124.2 S532.7.. 
3809.3 389.4 412.1 809.7 870.6 1055.7 1451.8 1532.9 765.9.. 


降 率 与 数理 统计 基本 概念 





1987.6 2765.5 739.9 515.6 428.4 3794.5 242.3 4812 2204.7.… 

4407.1 2885 1124.7 1190 191.4 2227.9 2079 6934.1]; % 输 入 原始 数据 
normplot(X); % 用 概率 纸 检验 数据 是 否 服 从 正 态 分 布 
[h,P,JbstatCV]=jbtest(X,0.05) % 正 态 分 布 拟 合 的 检验 


运行 程序 ， 输 出 如 下 《〈 见 图 2-13 ): 


h = ] 

P = 0.0051 
Jbstat= 16.7897 
CV = 4.7992 





概率 





图 2-13 ”概率 纸 检验 图 


从 图 上 可 以 看 出 散 点 并 不 聚集 在 直线 上 ， 因 此 流域 成 灾 面积 〈 原 始 数据 ) 不 服从 正 态 分 
布 ， 这 一 点 也 可 以 通过 jbtest 检验 来 证 实 。 由 于 有 =!1 表示 在 置信 水 平 we = 0.05 下 不 接受 原 假 设 ， 
且 P = 0.0051 表明 接受 假设 的 概率 也 很 小 ， 测 试 值 Jpstat = 16.7897 大 于 临界 值 C = 4.7992， 所 
以 不 接受 原 假设 。 

【 例 2-41】 已 知 数据 

x=[234578111415 16 18 19]; 
y=[106.42 108.2 109.58 110 109.93 110.49 110.59 110.6 110.9 110.76 111 111.2] 

建立 y 与 x 之 间 的 函数 关系 ， 并 检验 残 差 > 是 否 服从 均值 为 零 的 正 态 分 布 。 

分 析 : 通过 作 散 点 图 ， 猜 测 曲线 的 参数 表达 式 ， 求 出 最 佳 参数 ， 得 到 > 与 x 之 间 的 函数 
关系 ， 计 算出 残 差 ， 检 验 残 差 e 是 否 服从 均值 为 零 的 正 态 分 布 。 

其 实现 的 MATLAB 程序 代码 如 下 : 

>> clear 


x=[234578111415 1618 19]; 
y=[106.42 108.2 109.58 110 109.93 110.49 110.59 110.6 110.9 110.76 111 111.2]; 


plot(x,yv*"); % 作 散 点 图 
A=polyfit(x,y,1) % 线 性 最 小 二 乘 拟 合 
plot(x,y,*,x,polyval(A,x),); % 绘 制 拟 合 直线 


el=y-polyval(A,x); % 计 算出 残 差 








[hlsig,ci]=ttest(el1,0,0.05) 
[h2,P,JbstatCV]=lillietestte1,0.05) 


运行 程序 ， 输 出 如 下 : 


A= 
0.1804 108.1387 

hl = 0 
Sig = 1.0000 
ci = 

-0.3307 0.5307 
h2 = 0 
P = 0.2039 
Jbstat = 0.1995 
CYV = 0.2418 


% 用 t 检 验 来 检验 残 差 是 否 服从 正 态 分 布 
% 正 态 分 布 拟 合 的 检验 


x 与 ?的 线性 最 小 二 乘 拟 合 直线 方程 为 天 0.1804x+108.1387， 不 管 是 上 检验 还 是 lillietest() 
检验 ， 都 接受 残 差 e 服从 均值 为 零 的 正 态 分 布 的 假设 ， 但 要 注意 函数 lillitest 检验 给 出 的 忆 


= 0.2039 很 小 ， 说 明 虽 然 通过 检验 ， 但 不 是 很 理想 ， 这 点 从 拟 合 的 直线 〈 见 图 2-14) 也 能 直 


观 地 看 出 来 。 
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图 2-14 





拟 合 的 直线 效果 





第 3 章 多 维 随机 变量 


前 面 只 讲解 了 一 个 随机 变量 的 情况 ， 但 是 在 实际 问题 中 ， 和 常常 需要 同时 用 两 个 或 两 个 以 
上 的 随机 变量 才能 较 好 地 表示 一 个 试验 的 结果 ， 而 这 些 随机 变量 之 间 往 往 存在 一 定 的 联系 ， 
因而 需要 将 其 作为 一 个 整体 来 研究 。 为 此 ， 引 进 随 机 向 量 的 概念 。 


3.1 二 维 随机 变量 
.11| 二 维 随 机 变量 的 定义 | 


在 实际 问题 中 ， 对 于 某 些 随机 试验 的 结果 往往 需要 同时 用 两 个 随机 变量 来 描述 。 

例如 ， 为 了 研究 某 一 地 区 儿童 的 身体 发 育 情况 ， 对 这 一 地 区 的 儿童 进行 抽查 ， 对 每 个 儿 
童 都 要 观察 其 身高 癌 体重 y。 在 这 里 ， 如 了 是 两 个 随机 变量 。 

又 如 ， 大 炮 射击 时 ， 炮 弹 的 弹 着 点 的 位 置 需 要 由 其 横 坐 标 奈 和 纵 坐 标 了 来 确定 。 在 这 
里 ， 史 了 也 是 两 个 随机 变量 。 

这 类 例子 很 多 ， 举 不 胜 举 。 值 得 强调 的 是 ， 这 些 例子 中 的 两 个 随机 变量 间 一 般 来 说 都 有 
着 某 种 联系 ， 因 此 ， 需 要 将 这 两 个 随机 变量 作为 一 个 整体 来 研究 。 其 在 数学 上 的 抽象 就 是 如 
下 定义 的 二 维 随机 变量 。 

定义 3-1 设 克 了 是 两 个 随机 变量 ， 由 它们 构成 的 整体 < 称 为 二 维 随 机 向 量 ， 记 为 
( 妃 中 ， 即 


高 散 型 随机 向 量 

与 随机 变量 的 情形 类 似 ， 对 于 二 维 随机 向 量 ， 也 只 讲解 离散 型 和 连续 型 ， 且 首先 讲解 离 
散 型 随机 向 量 。 

定义 3-2 ”如 果 二 维 随机 向 量 = (X, 全 部 可 能 取 到 的 值 ( 二 维 向 量 ) 能 够 一 一 列举 
出 来 ， 则 称 上 为 二 维 离散 型 随机 向 量 。 

显然 ， 如 果 &= (站 是 二 维 离散 型 随机 向 量 ， 则 ， 了 都 是 离散 型 随机 变量 。 反 之 ， 
也 成 立 。 

设 二 维 离散 型 随机 向 量 少 = (X,Z) 所 有 可 能 取 到 的 值 为 

(世芳 ) ， 忆 =12,… 


= 站 


且 取得 各 个 值 的 概率 为 
D7 =P[(3, 丰 =(5, 力 )] ， 六 =12…， 《3-1) 
则 称 式 〈3-1) 为 = ( 丰 , 了 ) 的 联合 概率 分 布 ， 简 称 为 概率 分 布 或 联合 分 布 。 











显然 ， 忆 具有 下 列 性 质 ; 
1) 忆 冯 0，P7=L2… 


2) 》》 户 =1。 
1 7 


【 例 3-1】 整数 闷 随 机 地 在 1， 
取 一 个 值 ， 求 (X,7) 的 概率 分 布 。 


2，3，4 中 取 一 个 值 ， 另 一 个 整数 了 随机 地 在 1 一 习 中 


解 : 由 概率 的 乘法 公式 ， 可 得 (4,) 的 概率 分 布 为 


PC,D=D]= 二 xl= 


PCDD=(2]=x0= 


工 
4 
0 


P[(X,7)=(13)] = 4x0= 0 


PCDD=d4)]=x0=0 


PLXK,D)=(2.D]= 
P[(XY,7)=(2,2)] = 
PC 站 =(2.3)]=4x0= 


] 


上 上 = 
4x7 一 8 
1 11 
4x2 一 8 
1x0=0 


PICX,J)=(2,49]= 二 x0=0 


PICX, 芒 =(G3.D0]= 了 > 
PICXK,DD= (3,2)]= 本 >x 
PICX, 门 =(3,3)]= 计 x3=1 
PICX, 门 =(3,4)1=4x0=0 
PICX,D)=(4.0]= 
PICX,J)=(42)]= 


fa 2 蕊 =(4,4)]= 


【 例 3-2】 箱子 中 有 12 个 产品 ， 


下。 
4 
二 
4 
人 
了 
4 


x= 
3 
x 二 
3 
1 
3 


其 中 有 两 个 次 上 


次 只 取 一 个 产品 ， 且 按 如 下 方式 定义 随机 变量 X,7 : 
交 = 第 一 次 取出 正品 第 二 次 取出 正品 
1 


， 第 一 次 取出 次 品 ` 


求 随 机 向 量 (X, 切 的 概率 分 布 。 





11， 第 一 次 取出 次 品 


多 维 随机 变星 





解 : 由 概率 的 乘法 公式 ， 可 得 随机 向 量 (X, 站 ) 的 概率 分 布 为 
PXI=(.O]= 世 x 二 = 号 = 号 


EDD=(0D1=17x1=137= 纯 


0 二 .20 .9 
77= 册 0]=x11=17= 人 


1 
有 
FE 人 = 这 xi 人 


连续 型 随机 向 量 | 


定义 3-3 对 于 二 维 随机 向 量 <=(XY,7) ， 如 果 存 在 非 负 可 积 函 数 p(x,y) ， 
-oo<X<oo,-oo<y<oo， 使 得 对 于 任意 一 个 由 不 等 式 a<x< ，c<y<d 确定 的 平面 区 域 
D={fry)|a<x<pbc<y<d 





均 有 
Poey)sD]= ||ecoy)drd (3-2) 
也 
则 称 上 =(X,7) 为 二 维 连续 型 随机 向 量 ， 且 称 p(x,y) 为 <=(X,D) 的 联合 分 布 密度 ， 简 称 为 
分 布 密度 或 〈 概 率 ) 密度 。 
显然 ， 如 果 < 上 =(X,P) 是 二 维 连 续 型 随机 向 量 ， 则 X, 了 都 是 连续 型 随机 变量 。 反 
之 ， 也 成 立 。 
根据 定义 3-3 可 知 ， 二 维 连续 型 随机 向 量 (X, 妆 的 分 布 密度 p(x,7) 具有 下 列 性 质 : 
1) P(x,))>0 。 
2) | 全 ecoypdrdy=1。 
3) 对 于 任意 的 平面 区 域 忆 ， 均 有 
Ptey)sD]= [peydrd 
司 


上 述 性 质 的 证 明 从 略 。 
【 例 3-3】 设 随机 向 基 (X,7) 的 分 布 密度 为 


_| 4eer，x>0>0 
pep| 其 他 
求 常 数 4。 
解 : 由 于 
六 三 peoparty=l 
而 


六 [upa= 广 让 aerona 








加 十 00 _2x 十 o0 -7y 本 ,让 2 本 _ 工 这 
=4| e dr| e "dy 4 7 | |- 


三 
| 


1 
一 4=1， 即 4=14。 
因此 144 1， 即 4=14 


名 和 生机 向 量 的 均匀 分 布 | 
定义 3-4 设 忆 是 平面 上 的 有 界 区 域 ， 其 面积 为 4。 如 果 二 维 随机 向 量 ( 也 , 冯 ) 的 分 布 密 
度 为 





工 
oo 性 4 
0， 其 他 
则 称 二 维 随机 向 量 ( 闷 , 妇 在 区 域 D 上 服从 均匀 分 布 。 
下 面 主要 介绍 MATLAB 中 与 均匀 分 布 有 关 的 一 些 函 数 。 
(1) unifpdf 函数 
功能 : 用 于 计算 均匀 分 布 V(a,b) 的 密度 函数 。 
其 调用 格式 如 下 : 
Y= unifpdfxab) 
其 中 ，a<b 为 该 分 布 的 参数 ， 而 x 是 数 或 矩阵 。 此 时 ， 函 数 的 计算 结果 是 一 个 与 x 同 维 
数 的 矩阵 ， 其 各 个 元 素 是 x 相应 元 素 的 均匀 分 布 Q(a,b) 的 分 布 密度 函数 值 。 
其 公式 为 
= yzlaog 四 = 于 二 人 (GO 
例如 ， 其 实现 的 MATLAB 程序 代码 如 下 : 
>> unifpdf1:10,0.25,5) 
运行 程序 ， 输 出 如 下 : 


ans 二 
0.2105 “0.2105 “0.2105 ”0.2105 0.2105 0 0 0 0 0 


计算 结果 是 一 个 10 维 的 行 向 量 ， 它 的 第 下 个 分 量 恰好 等 于 Q(0.25,5) 的 密度 函数 在 上 点 的 值 。 
(2) unifcdf 函数 
功能 : 用 于 计算 均匀 分 布 U(a,b) 的 累积 分 布 函 数值 。 该 函数 的 调用 格式 如 下 : 
P=unifcdfx, ab) 


其 中 ，a<b 为 该 分 布 的 参数 ， 而 x 是 数 或 矩阵 。 此 时 ， 函 数 的 计算 结果 是 一 个 与 x 同 维 
数 的 矩阵 ， 其 各 个 元 素 是 x 相应 元 素 的 均匀 分 布 U(a,b 的 累积 分 布 函数 值 。 





多 维 随机 变量 





已 =FGzla 人 = 二 2 人 ol 人) 
例如 ， 其 实现 的 MATLAB 程序 代码 如 下 : 
>> probability = unifcdf0.75,-1,1) 
运行 程序 ， 输 出 如 下 : 
probability = 
0.8750 


(3) unifrnd 函数 
功能 : 用 于 生成 服从 均匀 分 布 U(a,b) 的 随机 数 ， 它 有 3 种 调用 格式 ; 
和 @ 第 一 种 调用 格式 如 下 : 
runifrnd(ab) 
其 中 ，a<b 为 该 分 布 的 参数 。 这 种 调用 的 计算 结果 为 一 个 服从 均匀 分 布 wa, 呈 的 随 
机 数 。 
@ 第 二 种 调用 格式 如 下 : 
I=unifrnd(a,b, m) 
其 中 ，a<p 为 该 分 布 的 参数 ，7 为 以 正 整数 为 分 量 的 二 维 行 向 量 。 这 种 调用 的 计算 结果 
是 一 个 由 服从 均匀 分 布 C(a,b) 的 随机 数 所 组 成 的 矩阵 ， 该 所 阵 的 行 数 由 的 第 一 个 分 量 指 
定 ， 列 数 由 半 的 第 二 个 分 量 指定 。 
@ 第 三 种 调用 格式 如 下 : 





I=unifrnd(ab, n, m) 


其 中 ，a<p 为 该 分 布 的 参数 ，) 和 产 为 正 整数 。 这 种 调用 的 计算 结果 为 一 个 mx 产 阶 和 矩 
阵 ， 其 各 个 元 素 都 是 服从 均匀 分 布 w(a,b) 的 随机 数 。 
例如 ，unifrnd 函数 实现 的 MAILAB 程序 代码 如 下 : 


>> random = unifrnd(0,1:6) 
random = 

0.8147 1.8116 0.3810 3.6535 3.1618 0.5852 
>> random = unifrnd(0,1:6,[1 6]) 
random = 

0.2785 1.0938 2.8725 3.8596 0.7881 5.8236 
>> random = unifrnd(0,.1,2,3) 
random 二 

0.9572 0.8003 0.4218 

0.4854 0.1419 0.9157 
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3.2 ”随机 向 量 的 分 布 


3.2.1 E2 

二 维 随机 变量 (X, 了 ) 作为 一 个 整体 ， 具 有 联合 分 布 函数 F(x,)， 而 X, 了 各 自 都 是 随机 
变量 ， 它 们 也 有 自己 的 分 布 函数 Exz) ， 瓦 (07) 。 相 对 于 二 维 随机 变量 (Y《,7) 的 联合 分 布 函 
数 ， 分 别称 已 (Co) ， 玉 ( 妃 为 志和 了 的 边缘 分 布 函数 。 相 应 地 ， 离 散 型 随机 变量 X, 了 各 自 的 
分 布 律 称 为 边缘 分 布 律 ， 而 连续 型 随机 变量 X, 了 各 自 的 概率 密度 称 为 边缘 概率 密度 。 将 边缘 
分 布 函 数 、 边 缘分 布 律 和 边缘 概率 密度 统称 为 边缘 分 布 。 

1. 边缘 分 布 函数 

设 (X, 咏 是 二 维 随机 变量 ， 其 联合 分 布 函数 为 天 (e 力 ， 则 无 的 边缘 分 布 函数 为 

忆 (z)=PIY 和 对 =PIY 和 27<+Hoo} 


即 
Eyv(xz)= 天 (x+oo)= lim F(Ox,y) (3-3 ) 
] 一 + 
同 理 ， 了 的 边缘 分 布 函 数 为 
及 (0)=F(+tooy)= lim Focy) (3-4) 
【 例 3-4】 设 二 维 连续 型 随机 变量 (X, 六 的 联合 分 布 函数 为 
0， x<0 或 ?<0 
Je 让 0 入 x 乏 1,0 入 )》 乏 2 
F(x,y)= 了 (2x+]) 0<x 和 Ly>2 
证 >(4+ 乃 x>l0 入 y 芭 2 
0， x>l>2 
求 : 1) 局 了 的 边缘 分 布 函数 庆 (xz) ， 玉 (0)。2) (人 ,六 的 联合 概率 密度 jx,y) 。 
解 : 1) 
0， X<0 


书 Oo = F(xc+Hoo)= 本 (2x +D，0<x<sl 


]， | 
0， Jy7<0 

启 O)=F(ko 作 =] 廊 X4+ 及 0<yS2 
]， ?>2 


2 
2) 因为 /cc 力 = 二 入 ， 而 





多 维 随机 变量 


zy + 二 轨 0 乏 x 乏 1,0 入 7》 忒 2 


2 


GCC0 芒 _17 2 2 二 7 去 
二 2x 十 本 为 0 入 x 乏 ],y7>2 


所 以 (X,7) 的 联合 概率 密度 为 


2 1 
大 二 光宇 X + 本 区 ， 0 入 x 乏 10 入 )》 芯 2 
0， 其 他 
2. 边缘 分 布 律 
设 (X,7) 为 二 维 离散 型 随机 变量 ， 联 合 分 布 律 为 

Pt 人 = 国 节 = 攻 } = 局 ， 已 = 1,2,…. 


则 
P{=X} =P{GK=z)iLJ7=y) =PLLJr=m7=y 
J /=! 
=2PK=z7=y)=》 肋 = 万- 三 1] 2,…， 
/可 一 
同 理 
PIT= 蕊 }j= 》 雇 = 已 7J=12… 
i=1 
称 
P{Y《 = 和 = Poi=12… 
为 忒 的 边缘 分 布 律 。 
称 
P 亿 = 切 } = 已) =12… 
为 了 的 边缘 分 布 律 。 


若 (X, 了 ) 的 联合 分 布 律 用 表格 表示 ， 则 疡 -就 是 表格 上 第 守 行 的 元 素 之 和 ， 尸 ;就 是 表格 
第 /7 列 的 元 素 之 和 。 分 别 将 它们 记 在 表格 的 边 上 ， 如 下 表 。 这 也 是 边缘 分 布 名 称 的 由 来 。 














【 例 3-5】 设 有 10 件 产品 ， 其 中 有 两 件 次 品 ，8 件 正品 。 现 从 中 抽取 两 次 ， 每 次 取 一 
件 产品 。 定 义 随机 变量 X, 了 如下， 
| 第 一 次 取出 次 品 第 二 次 取出 次 品 


“|o， 第 一 次 取出 正品 ” ”|0， 第 二 次 取出 正品 
试 就 下 列 两 种 情况 ， 分 别 求 (X, 六 的 联合 分 布 律 和 边缘 分 布 律 。 
1) 有 放 回 抽取 。2) 不 放 回 抽取 。 
解 ， 1) 有 放 回 抽取 。 
此 时 ， 事 件 {X = 罗 } 与 包 = 多 } 相互 独立 ， 故 
P 人 人 =z 了 =J)}=P( 人 = 为 JPIY= 儿 ) 7=12… 


即 
PK=07=0=PIK=0P7= 0=1x 疙 = 只 
10 -25 
同 理 
区 
人 10-25 
3 
PE=L7=0} 6"16 去 
昌 下 
P{KY=L7=l 生 x 襄 = 去 


至 此 ， 求 出 (, 太 的 联合 分 布 律 。 
P{XY=0i=PIK=07=0+P(X=07= = 号 + 基 = 3 
PEKKE=1=1-P(《=0)= 


即 世 的 边缘 分 布 律 为 


同 理 ， 可 求 出 了 的 边缘 分 布 律 为 


(, 疙 的 联合 分 布 律 及 边缘 分 布 律 也 可 用 表格 表示 ， 如 下 所 示 。 
有 放 回 抽取 








变 旱 





2) 不 放 回 抽取 。 
此 时 ， 事 件 { 作 =z} 与 世 = 蕊 } 不 相互 独立 ， 由 乘法 公式 知 
P{=i7= 甩 =P(X=iPIZ= /天 = 号 /=0,1 
即 





PK=07r=0=PXK=0PXY=0IX=0=1x 二 = 当 
同 理 


(7) 的 联合 分 布 律 也 可 用 表格 表示 。 按 行 、 列 求 和 ， 即 得 冬 和 了 的 边缘 分 布 律 。 可 用 
如 下 表格 表示 : 


不 放 辐 抽取 





从 以 上 两 个 表格 看 到 ， 在 两 种 不 同情 形 下 ，X,7 的 边缘 分 布 律 相 同 ， 但 ( 马 , 妨 的 联合 分 
布 律 不 同 。 因 此 可 以 看 出 ， 仅 由 藉 和 了 的 边缘 分 布 不 能 确定 (X,7) 的 联合 分 布 。 

3. 边缘 概率 密度 

设 (Y,7) 为 二 维 连续 型 随机 变量 ， 联 合 概率 密度 为 p(x,y) ， 而 已 7 各 自 的 概率 密度 
Px(x) ，Pr() 为 边缘 概率 密度 ， 它 们 由 联合 概率 密度 决定 。 

由 式 〈3-2) 和 式 (3-3) 可 得 


Fxy(x)= 开 (x+oo)= 属 dz 三 pe yjdy = 出 | 六 pep dz 
从 而 天 的 边缘 概率 密度 为 


Pr(OO=FxGO9= 三 pe (3-5) 
同 理 ， 了 的 边缘 概率 密度 为 
PrO)= 司 0)= 全 poey)dr (3-6) 


用 式 〈3-5)》 求 pxr(xz) 时 ， 在 积分 中 视 x 为 参数 ， 而 用 式 (3-6) 求 永 ( 仿 时 ， 视 》 为 
参数 。 
【 例 3-6】 设 (X, 六 服从 二 维 正 态 分 布 Nu ,如 ca,oz,p)， 其 联合 概率 密度 为 











P( 人 = 世 





1 证 二 
2TCOIO> 一 | 20-P) 
求 边 缘 概率 密度 px(z) ， 订 (7) 。 


解 : pxr(x)= | 民 Po J)dy 


1 
ovVl-P 








作 变 量 代 换 ， 令 f= 1 [ 寂 -o4 | 1 
1 


1 天 On- 


2 





2(0- p”) CI CIO2 02 





2 
= 1 yy 一 如 xl 册 2 | 上 
[ Oo | Re OI 





人 
__C-A) 己 
2o 2 
从 而 
LGA ，。 
一 2c/ 2dr 
Px (zx) 270 1 


己 十 oD 本 
利用 | , 记 e idr=1， 得 | e zdf = 27 。 于 是 
-oo 天 -oo 








1 Cr-A 关 
(x)= e 2 ， 一 o0 <X,》< +oo 
人 
即 蕊 ~ NG,a2) 
同 理 ， 可 得 
OP 入 





2c? 





1 
( ) = e 1 一 00 < X ,< 十 20 
4 V2ra， 


即 了 ~ N(sa3) 


这 个 例子 说 明了 二 维 正 态 分 布 的 一 个 重要 性 质 : 二 维 正 态 分 布 的 边缘 分 布 仍 是 正 态 分 
布 。 还 看 到 这 些 边缘 分 布 都 与 参数 p 无 关 ， 亦 即 对 于 给 定 的 Am,moi,az ， 不 同 的 P 对 应 着 
不 同 的 二 维 正 态 分 布 ， 但 它们 的 边缘 分 布 都 是 相同 的 。 因 此 ， 这 又 一 次 说 明了 由 边缘 分 布 不 


能 确定 (X&, 了) 的 联合 分 布 。 


要 特别 注意 的 是 ， 若 (X, 六 服从 二 维 正 态 分 布 ， 则 邢 , 了 必定 服从 一 维 正 态 分 布 ， 反 之 却 


不 一 定 成 立 。 


综 上 所 述 ， 可 以 得 出 结论 : 联合 分 布 决定 边缘 分 布 ， 但 一 般 仅 由 边缘 分 布 不 能 决定 联合 


分 布 。 不 过 ， 在 一 定 条 件 下 ， 由 边缘 分 布 也 能 决定 联合 分 布 。 








1 攻 ) 22 多 | 各 





dy 9 则 


] 
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条 件 分 布 
本 节 将 首先 利用 随机 事件 的 条 件 概率 讲解 离散 型 随机 变量 的 条 件 分 布 ， 然 后 讲解 连续 型 
随机 变量 的 条 件 分 布 。 
1， 离 散 型 随机 变量 的 条 件 分 布 律 
设 (X, 了 ) 为 二 维 离散 型 随机 变量 ， 联 合 分 布 律 为 
P( 人 =z 了 =J}= 克 ，P7=12… 





则 区 的 边缘 分 布 律 为 

PK=z=ym = 六 ，i=12… 
7 的 边缘 分 布 律 为 

Pi = 功 = 袜 = 忆 ，7 =12… 


现在 考虑 在 了 = 条件 下 ， 随 机 变量 尤 = 的 条 件 概率 ， 由 条 件 概率 公式 可 得 

PP = 区 7 了 = 妨 } 忆 7 
PTY=) Pr 

易 知 上 述 条 件 概率 满足 分 布 律 的 性 质 ; 

1) P(XY= 国 | 了 =y}>0。 


2) > PK=xal7=yj=y 包 -上 》 - 忆 -1 
全 1 呈 =] 己 / 己 / i=1 尼 ,/ 

于 是 引入 下 面 的 定义 。 

【 例 3-7】 对 固定 的 交 ， 若 Pt = 蕊 } > 0 ， 则 称 


PK = 为 | 了 = 攻 }= ，i=12… 


PEX= 罗 |I7= 攻 }= 龟 ，i=12… 
六) 


为 在 了 7 = 芒 条 件 下 ， 随 机 变量 头 的 条 件 分 布 律 。 

同伴 ， 对 固定 的 乓 ， 若 PK = 区 >0， 则 称 

PU= 力 IX= 允 = 全， 

为 在 壮 = 芍 条 件 下 ， 随 机 变量 了 的 条 件 分 布 律 。 

由 此 可 见 ， 求 离散 型 随机 变量 的 条 件 分 布 律 无 疑 是 条 件 概率 公式 的 推广 。 

2， 连续 型 随机 变量 的 条 件 概率 密度 

设 (Y, 六 为 二 维 连续 型 随机 变量 ， 其 联合 概率 密度 为 p(x,y) 。 因 为 对 于 任意 的 实数 
xy》， 都 有 P{X= 寻 =0，PIY= 示 =0， 因 此 不 能 像 离 散 型 随机 变量 那样 引入 条 件 分 布 。 下 
面 先 用 极限 的 方法 来 导出 条 件 分 布 函数 。 

定义 3-5 给 定 ?， 设 对 于 任意 给 定 的 正 数 =，Pfly-e<yY<y+esj>0， 且 对 于 任意 实 
数 x， 极 限 im PK sxly-e< 了 <y+ 对 存在 ， 则 称 此 极限 为 =》 条 件 下 ， 随 机 变量 区 的 











条 件 


所 以 


又 因 


分 布 函数 ， 记 为 Eur(z| 妇 或 P{KS 和 xly-E< 了 和 yy+s， 即 
Ar 人 | 切 =P 人 和 XI= 夫 = Jam 人 人 和 X|y-E< 了 入 +5} 
类 似 地 ， 可 定义 在 X=x 条 件 下 ， 随 机 变量 了 的 条 件 分 布 函数 为 
下 面 推导 在 了 = 条件 下 ， 随 机 变量 巳 的 条 件 分 布 函数 。 
Ar 人 xl 人 = im Pt 和 xy 一 < 了 入 +S) 


= ]im 


GF (xy)) 
[FGCcy+c)-Focy-s)/2e 09 
ec0 玉 (O+E)- 瓦 (一 E)/2e dr(y) 








dy 
因为 
上 (xy)= | dy 上 P(y)dx 
GFrGoy) 
一 ooopd 
为 号 多 = 六 0 


由 


于 是 由 式 〈3-8)， 得 


(2 ))dzx 
Fwir(rly)= 上 zwau ”Po 力 切 d 


Pr(O) -0 
记 Pxir(xr| 切 表示 在 = 条 件 下 , 艺 的 条 件 概率 密度 ， 则 
_xc 妇 ) 
Porec| 力 = PrO) 


同 理 


_ jc 轨 
Prix(y|z)= DO 


为 在 区 =x 条 件 下 ， 了 的 条 件 概率 密度 。 


从 而 


由 式 〈3-10) 与 式 (3-11)， 又 得 到 


P(zy)= Pr(x)Pnr(y|xr)= Pr(O)Prr(cly) 


Pr(x) 二 伍 peemdy= 万 关 opmwclnd 


Co) 
Prix (|x)= 2 二 = 
Pr 隐 Pr(O)PxrCcly7)dy 


【 例 3-8】 对 于 二 维 连续 型 随机 变量 (X,7) ， 已 知 了 的 边缘 概率 密度 为 


忆 人 入 2 一 E<7 入 7+S_ lim E(x,y 二 E) 一 F(xy 一 E) 
Er PPly-E<7 了 过 7y+E} E-0 Fr(O+E) 一 疡 (一 引 ) 


(3-7) 


〈3-8 ) 


《3-9) 


《3-10) 


《3-11 ) 


2 


63=13% 


(3-14) 


多 维 随机 变量 





_ 67(- 蕊 ，0<y<1 
Pr(y) = 0 其 他 
日 在 了 =》(0<y<1) 条 件 下 , 天 的 条 件 概 率 密度 为 


EL yy<X<1l 


PPxir(X |7) = 1 一 
0， 其 他 








求 扼 的 边缘 概率 密度 py (x) 及 P 人 < 引 


浊 
解 : (X, 六 的 联合 概率 密度 为 


6)?，0<)y<1Ly<x<1l 
peD-POprrel | 其 他 


G={Ccy)1Ppo)>0=ftcy)l10<y<LDy<x<li( 见 图 3-1 中 的 阴影 部 分 )。 
+a “6ydy=3xz2，0<x<l 

pxCO= | reo-| Ce 

本 0， 其 他 


1 1 
1 人 2 
P|x< 中 = 户 mrcodrc= 3xdr = 





图 3-1 例 3-8 的 阴影 网 





放 习 二 维 正 态 分 布 | 


定义 3-6 ”如 果 二 维 连 续 型 随机 向 量 (X,7) 的 概率 密度 为 


-1 [ca 3pG-AO-) 人] 
1 e 20-P 于 cic: 加 


2raloVl- 记 2 





P(x,)) = (3-15) 


其 中 ，-co <x< +eo,-oo<y<+tooimmooap 均 为 常数 ， 且 G>Q >Q -LI<p<l1， 则 称 
( 代 , 六 ) 服从 参数 mm,m,alaz,P 的 二 维 正 态 分 布 。 
【 例 3-9】 求 服 从 参数 ,Maoz,p 的 二 维 正 态 分 布 的 边缘 概率 密度 。 
解 : 由 式 〈3-5) 知 
px(O= | poy)d 
由 于 








和 CO -多 = 二 生 -o54] -m 区 多 























CiO> CO On ai 
才 是 
(x 一 向 ) 1) 外-W 
人 - 5 
Py (xz) = 1 ee 20 | e 20-2 C 9 网 
2rOIOC2V1L-D 到 
邻 
1 fy- 5 
1= -一 汪 -O 
| 0> Oi 
则 有 dx = 1 dy ， 且 当 ? 一 + 时， 一 +o; 当 ? 一 -oo 时 ，t 一 -oo 。 因 此 
arVI--D 
{x 末 天 1 2 
1 一 2a ft 1 me 
(区 三 ee e 2? di== e “4 〈(-oo<X<-+oo ) 
Ax ) 2Ton 上 OiV2r 
问 理 ， 可 得 
1 -orAD 
Pr(x)= 6“2 (-oo<y<:+oo) 
C2V2T 


例 3-9 的 结果 表明 ， 二 维 正 态 分 布 的 两 个 边缘 分 布 都 是 一 维 正 态 分 布 ， 而且 二 维 正太 分 
布 5 个 参数 中 的 内 , 岂 和 az,a2 分 别 是 其 两 个 边缘 概率 密度 的 均值 和 方差 。 除 此 之 外 ， 还 可 
说 明 式 〈3-15) 所 给 出 的 p(xy) 是 一 个 二 维 连 续 型 随机 向 量 的 联合 概率 密度 。 这 是 因为 


4 “和 +o 夏 ta tm 1 2 
三 万 repa= 站 大- 广 = 霹 。 dr=1 
作为 本 节 的 结束 ， 再 给 出 一 个 关于 二- 维 正 态 分 布 的 重要 结论 ， 其 证 明 从 略 ， 在 应 用 中 可 
以 直接 运用 。 
如 果 随 机 向 量 (X,D) 服从 参数 所 ,civassp 的 二 维 正 态 分 布 ， 则 万 与 了 相互 独立 的 充 
分 必要 条 件 为 





D=0 


3.3 ”随机 向 量 函 数 的 分 布 


在 前 面 章节 中 ， 介 绍 了 一 个 随机 变量 函数 的 分 布 问题 ， 即 已 知 随机 变量 过 的 分 布 ， 研 究 
区 的 函数 了 = 88) 的 分 布 问题 。 在 本 节 中 ， 将 讲解 二 维 随机 向 量 函 数 的 分 布 问题 。 具 体 地 
讲 ， 就 是 已 知 二 维 随机 向 量 (XY,7) 的 联合 分 布 ， 求 其 函数 Z = /7(XY ,站 。 


二 维 随 机 向 量 函 数 的 概念 
定义 3-7 设 Jey 是 定义 在 二 维 随机 向 量 (X,7) 一 切 可 能 取 值 集合 上 的 一 元 函数 。 如 


果 二 维 随机 向 量 (X, 六 取 值 (xz,7) 时 ， 随 机 变量 Z 取 值 z= Ar(x7) ， 则 称 Z 为 二 维 随机 向 量 
(人 ,六 的 图 数 ， 记 为 Z= F(X,7) 。 
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设 二 维 连续 型 随机 向 量 (X, 六 的 联合 密度 为 pl0t) ，Z= (YXY,D) 的 分 布 国 数 记 为 
尼 (z) ， 则 有 


JUxyjsz 


这 是 二 维 连续 型 随机 人 向量 函数 的 分 布 计算 公式 。 下 面 就 几 个 具体 的 二 维 随 机 向 量 函 数 进 


已 DJ=PCZ<a=PLACD<a=- | peard (3-16) 电 


行 讲解 。 






函数 分 布 | 
1. Z=X+Y 的 分 布 

设 随 机 向 量 (X,7) 的 联合 密度 为 p(z, 力 ， 则 由 式 〈3-16) 知 
到 (2)=PX+7 入 2z)= P(x,y)drdy 


这 里 积分 区 域 忆 = {(xy)1xz+y 科 车 是 xOy 平面 上 的 一 个 区 域 ， 如 图 3-2 所 示 。 
利用 二 重 积分 与 累积 分 的 关系 ， 并 令 y=&-x， 得 


有 PCOoy)dxdy = 户 dx 人 peopd 


X+ySZ 


-六 aocv-om= 记 we 三 nero 


一 名 


了 





因此 
磊 (z)= 囊 | 三 pex-o 图 3-2 积分 区 域 
再 将 此 式 两 边 对 z 求 导 ， 即 得 
尼 (z)= pz(z)= 全 wez-adr (3-17) 
由 X,Y 的 对 称 性 知 ， pz(z) 还 可 表示 为 
Pz(2)= 三 pz- (3-18) 
其 推导 从 略 。 
【 例 3-10】 设 蕊 与 了 相互 独立 ， 且 于 ~ NG ) ，7~ NG ,as)， 求 Z= 大 + 的 密 
度 pz(z)。 


解 ， 由 题 设 知 (X, 六 的 联合 密度 为 
1 


e 
2OIO2 


于 是 根据 式 (3-17)， 即 得 





P(x,y) = ， 一 oo0<X< +oo ， 一 < 了 < +oo 


_ 虽 GAU OA 
了 叶 


和 


十 o 1 





Pz(z) = | P(zz 一 X)dx= | e 


-am 2TCIO2 


又 由 于 








(一 6 + 人 一 X 一 AD) 
ar az 


和 


一 O 一 一 {cz(x- AD +oe[(z- 向 一 = 一刀 )-( 一 和 让 } 


= 了 [ta +o)Gx-A 关 +ar[(z-A 一 HA 一 2o(xz-Am)Gz- 和 一 所 ) 
| 


2 

2 

1 | C ] 

本 | 语 ee 人 + (z- 向 一 [0 
0O2 十 CI 1 


OIC 





2 1 设 
所 以 令 1= Jo +orr-AA) ， 则 有 dx= df ， 且 当 x 一 +oo 时 ，1 一 +o; 当 
2 1(CX 一 向 ) PE 


X 一 一 oo ，f 一 一 oo。 因 此 











构 | 《x 一 从 天 (7 一 4 六 
Pz(z)= 席 1 e 侯 下 必 马 -5 (t+% 放 
2rC107 Va; 上 + an V2T 
| /coL (A++ ) 
f 1 2(cs+o | yaa+ez di = ] e 2(c3 re 了 TEA ) 
=” OIOyV2T Jaz+ozvVI 
1C2 O 〇 > 十 OI 开 


这 表明 Z = 于 +7~ NU+Aa+o)， 即 Z= 三 + 也 服从 正 态 分 布 ， 其 均值 与 方差 
都 是 二 与 了 的 均值 之 和 与 方差 之 和 。 
2.Z=VX2+Y2 的 分 布 
设 攻 与 了 相互 独立 ， 且 撩 和 了 的 分 布 函数 及 密度 分 别 为 放 ( ， 甩 (及 prorn， 
Pr(O)。 求 Z=max(X,7) 的 分 布 函数 妃 。(z) 及 密度 pv(z) 。 
因为 艺 与 了 相互 独立 ， 所 以 
P(4 入 z 7 了 芝 2)=PX 入 z)P(7 和 2z)= Fr(z)F(z) 
又 由 于 Z= max( 习 ,站 ) 不 大 于 z 等 价 于 芯 和 工 都 不 大 于 z， 即 
P(Z 芝 2Zz)=P(X 雯 z7 芝 2z) 
因此 ，Z =max(X, 了 ) 的 分 布 函数 为 
已 = P(Z 乏 2z)= 书 (z) 甩 (2) (3-19) 
进而 可 知 Z= max(X, 了 ) 的 密度 为 
Prax(2) = Euax(2)=Fr(z)F(2)+Fr(2)F(z)=Pr(z)E(z)+Ev(z)Ppyr(z) (3-20) 
【 例 3-11】 设 系统 忆 由 两 个 相互 独立 的 子 系统 万 ， 忆 联接 而 成 。 联 接 的 方式 分 别 为 
1) 串联 ( 见 图 3-3a)。2) 并 联 ( 昂 图 3-3b)。3) 备用 《〈 备 用 系统 是 指 当 系统 二 损坏 时 ， 系 
统 己 开始 工作 ， 见 图 3-3c )。 
现 已 知 系统 五 、 疡 的 寿命 分 别 为 也 和 也 ， 其 密度 分 别 为 
ce ““，X>0 


X) 三 
Pr (xD) | 0， x<0 








图 3-3 例 3-11 图 
a) 中 联 bj) 并 联 ec) 备用 系统 


其 中 ，w>0,8>0 且 wz 上 DB 。 试 分 别 就 以 上 3 种 联接 方式 求 出 系统 工 的 寿命 和 的 密度 。 
解 : 根据 题 设 由 计算 知 总 了 的 分 布 函数 分 别 为 
1-we“，x>0 1-mje 4，y>0 


mo-| 0， x 区 0 5O)-| 0 Dy<0 
1) 串联 :由 于 当局 ， 姜 中 有 一 个 损坏 时 ， 系 统 过 就 停止 工作 ， 所 以 这 时 过 的 寿命 
Z=min(X, 了 )。 
如 果 记 Z = min(X,7) 的 分 布 函数 为 已 , (z) ， 则 有 
Fi(z)=P(Z<z)=1-P(Z>z)=1-PK>zy>z)=1-P(O 《>z)P(>z) 
=1-0-AxGoIL- 情 OO] 
即 Z = min(X, 太 的 概率 密度 为 





in(z)= | 人 
0， 2z 乏 0 
于 是 Z = min(X ,六 的 概率 密度 为 
_rr ij (zc+D)e ez>0 
mu- 0， zx<0 
2) 并 联 : 由 于 当 且 仅 当 石 ， 姜 都 损坏 时 ， 系 统 也 才 停止 工作 ， 所 以 这 时 元 的 寿命 为 
Z=max( X,7) 。 
于 是 利用 式 (3-19) 得 Z =max(X ,7) 的 分 布 遇 数 为 
_ 14-e“)(L-e)，z>0 
Fe-FOOFO)-| 0， z<0 


再 利用 式 〈3-20) 得 Z = max(XY,D) 的 概率 密度 为 
_jve “+ pe 和 -(w+D)e(erp2，z>0 
Prnax(2) | 0 < 
3) 备用 : 由 于 这 时 当 系 统 五 损坏 时 ， 系 统 己 才 开始 工作 ， 此 整个 系统 工 的 寿命 Z 是 万 
与 己 两 者 寿命 之 和 ， 即 Z= 巨 + 了 。 
于 是 利用 式 (3-18) 得 Z= 达 + 了 的 概率 密度 为 
pGB= 全 Pre-DPro)d 


由 于 术 (O) 仅 当 》>0 时 是 非 零 值 ， 而 px(z- 妇 仅 当 z-y》>0《〈 即 y<z) 时 是 非 零 值 
所 以 上 式 右 端的 被 积 函数 pr(z- ))prO) 仅 当 0<y<z 时 是 非 零 值 ， 因 此 








交 一 CzZ 一 有 2 一 CZ 和 一 (有 一 Cj) 他 一 GZ 一 DZ 
P.(z)= | ee pe pdy=ape 抱 (人 由 = 到 ce -e 广 ) 


又 由 于 当 z 和 0 时 ，p(z)=0， 于 是 Z= 忆 + 的 概率 密度 为 


CO (e- 和 和 er-pz 和 z>0 





0， 2z 反 0 
3. Z -= VX2 +Yz2 的 分 布 
由 上 述 内 容 可 知 ， 为 求 随机 向 量 函 数 Z = F(CY,D) 的 概率 密度 ， 先 要 求 其 分 布 函数 
已 =P{ACC ID < 了 
而 在 求 其 分 布 函 数 的 过 程 中 ， 需 要 用 到 式 (3-16)。 下 面 就 利用 式 〈3-16)， 再 计算 一 个 











重要 的 例子 。 
【 例 3-12】 设 艺 与 了 相互 独立 ， 服 从 相同 的 分 布 N(0,a2?) 。 求 Z= VX32 + 的 概率 
密度 。 
解 : 由 题 设 知 ， 所 与 了 的 概率 密度 分 别 为 
Prx(D= 二 si， 一 oo <X < +oo 
mrO) = 去 订 。 富 ，-o <y<+oo 
所 以 随机 向 量 (X,Z) 的 联合 概率 密度 为 
1 一 + 六 
Poy) = e 2 ， -oo <X < +eo,-oo <])< +oo 


2ra? 
由 于 Z=VX2+ 妆 只 取 非 负 值 ， 所 以 当 z<0 时 ， 其 分 布 函数 尼 (z)=0:， 机 当 z>0 
时 ， 利 用 式 〈3-16)， 即 得 


-] : 和 2 
已 (z)= PCVX” 十 关 委 引 = 。 所 2 1 


2TC 
光 2+ sz 


引入 极 坐 标 计算 上 述 二 重 积 分 ， 即 得 
二 
(D= 元 | dj erdr= 


于 是 Z=V3 + 闻 的 分 布 函数 为 


1 


了 2ra (1-e 2 )=1-e 2 
TOC 





采 (z)= 


由 此 可 得 Z=V22 + 天 的 概率 密度 为 
-er 2 二 0 
Pz(z) = 人 

0， Zz<0 





多 维 随机 变量 





这 就 是 参数 为 ec(c > 0) 的 Rayleigh 分 布 。 


3.4 二 维 随机 向 量 的 数字 特征 
本 节 将 介绍 二 维 随机 向 量 的 数字 特征 。 


多 到 效 学 划 主 | 
定理 3-1 设 (X, 世 为 二 维 随机 变量 ，g(x,y) 为 二 元 连续 函数 。 
1) 若 (X, 六 为 二 维 离散 型 随机 变量 ， 其 联合 分 布 律 为 
P{ 人 = 和 了 = 区 = 记 ，27=12… 





目 级 数 》'》'g(x,y)P) 绝对 收 系 ， 则 随机 变量 函数 g(X,D 的 数学 期 望 为 


1 大 | 


ELg(X ,Dj= >》》 800, 芒 )P (3-21) 


全】 /=1 


2) 若 (X%,D) 为 二 维 连续 型 随机 变量 ， 其 联合 概率 密度 为 pocoy) ， 且 广义 积分 
全 三 gco?)pGoy)drdy 绝对 收敛， 则 随机 变量 函数 gCX,Y) 的 数学 期 望 为 


Egg,I 世 = | 人 sgCoDpCcy)drdy (3-22) 
注意 到 ， 若 (X,7) 为 一 维 连续 型 随机 变量 ， 其 联合 概率 密度 为 p(x,y) 。 由 式 (3-22) 得 
agoO= 六 三 sona= 三 sa 三 ppu 权 = 六 goprod 
对 于 二 维 连续 型 随机 变量 ， 计 算 E[g(X)] 可 用 
ELgOOl= | [scOpGey)dd 3-23) 
或 
ELgOO]= | gCOprCodr (3-24) 


如 果 用 后 者 计算 ， 需 先 由 联合 概率 密度 p(x, 妇 计算 蕊 的 边缘 概率 密度 py (xz) ， 不 如 用 
式 〈3-23) 方便 。 当 (X, 切 为 二 维 离散 型 随机 变量 时 ， 由 于 求 边 缘分 布 律 不 复杂 ， 所 以 一 般 
用 式 (3-24) 求 。 
【 例 3-13】 设 (X, 六 的 联合 概率 密度 为 
pep 二 
求 : 1) EC ，E(CX2)。2) ED 。3) EX+ 门 。4) ECY7) 。 
解 : 用 定理 3-1 计算 。 


1) 开 (X)= 汪 三 moey)drdy 三 afaed 一 [ 3x3dx = 了 








3 


ED)= 全 三 petrdy= [ef =| aed -3 


oa- 六 站 mod=faJaow-[3na- 

3) EC+D= 站 站 e+meoomndarty= fc [3ze+m= 「 Sedr -3 
4) ECD= 人 六 opendardy= af3eyd =| 3xtdr - 襄 

边缘 分 布 的 期 望 与 方差 


设 二 维 随机 向 量 (X, 的 联合 概率 密度 为 p(x,y) ， 其 关于 X,7 的 边缘 概率 密度 分 别 为 
pr(r) ，Pr()， 由 例 3-13 和 (X,7) 的 联合 概率 密度 p(x, 尹 计算 X,7 的 期 望 与 方差 ， 得 下 





列 公 式 。 
尼 (X) = 三 必 xp(c ))dxdy (3-25) 
ED= | 三?pCopdrdy (3-26) 
DC = | 和 广 c -EC 了 pr y)drdy (3-27) 
DOD= | 三 D-EODPFpooy)drdy (3-28) 


【 例 3-14】 设 二 维 随机 向 量 (X, 妆 的 联合 概率 密度 为 


1 

pe 0 和 x 乏 2,0 入 》 忒 2 
0， 其 他 

求 : 1) DCY) 。2) DUO7) 。3) ECY) 。4) ED) 。 

解 : 利用 式 (3-25) 一 式 (3-28)， 即 得 


D Eo0= 六 三 memay=[ 了 让 0 
-ee 全 呈 - 
2) 5D= 六 站 pepd = 直 dr- [orble= 
3) DY) = 广 广 人 -人 P(xr,))dxdy = |- 有 er 到 
四 ffe- 引 忆 c+D|k= 基 
9 20D= 三 三 (7- 引 epa= 人- 引 | 和 er 








多 维 随机 变量 





定义 3-8 设 (X, 为 二 维 随机 变量 ， 若 E{[X- EC- ECOD] 存在 ， 则 称 它 是 随机 
变量 与 了 的 协 方差 ， 记 为 Cov(XY, 了 7) ， 即 
Cov(XY,7)= E{[X-ECCOI7- ECOD] (3-29) 


e 


显然 ， 有 Cov(X,7) = D(XY) 。 
由 式 〈3-29) 计算 协 方差 Cov(XY,7) ， 实 际 上 就 是 计算 二 维 随机 变量 (X《,7) 的 函数 
SID=EX-ECI7-EOD] 的 数学 期 望 。 
若 (X,7) 为 二 维 离散 型 随机 变量 ， 联 合 分 布 律 为 
Pt = 态 了 =y = 万，P7=12… 


则 由 式 〈3-21)， 得 


Cov(Y ,站 = 六 -ECO]D -ECODlP， (3-30) 
=1 /=1 
若 (站 ,站 为 一 维 连续 型 随机 变量 ， 联 合 概率 密度 为 p(xz,y) ， 则 由 式 〈3-22)， 得 
Cov(X, 丰 = | 机 人 5 -ECO][y- E(ODjdxdy (3-31)， 
为 便于 计算 协 方差 Cov(X,7) ， 常 采用 公式 
CovCOC DY) = EC,Z)- ECOOE(CD) (3-32) 


证 明 ，Cov(X, 门 = ELX-EOOIY- ED]} 
=ELTY- 碟 ( 人 -三 (X)+ECCE(CD] 
= ECXYY7)- ECY)E(OD- EEC)ECOD+ECC)E(Y) 
= ECXY7)- ECXY)E(CD) 


在 例 3-13 中 ， 对 于 二 维 连续 型 随机 变量 (Y,7) ， 已 求 出 RD=4， ED=a， 
EXD= 忆 ， 从 而 蕊 与 了 的 协 方差 


Cov(XY, 门 =E(CXTYD)-EC)E(ODJ= 二 -二 x 三 = 一 


协 方差 具有 下 列 性 质 : 

1) Cov(CY,PZ)=Cov(7,) 。 

2) Cov(af +c,p7+a)=apCov(X,7) ， 这 里 abc,d 均 为 常数 。 

推论 3-1 “Cov(aX,57) = abpCov(X,7 了 ) ，a,b 为 常数 。 

3) Cov(, 交 ,Z) = Cov( 忆 , 记 +Cov( 和 ,了 ) 。 

推论 3-2 ”Cov(3+ 生 首 + 肪 )=Cov( 和 , 菩 +Cov( 有 六 )+CovC, 太 +CovCG: 卫 ) 。 
4) 若 天 与 了 相互 独立 ， 则 Cov(X ,站 =0 。 

5) DY+ 中 = DC)+DO)+2Cov(Y,7) 。 





推论 3-3 DC- 站 =DCC+DOD)-2Cov(CX,D。 
推论 3-4 车站 与 了 相互 独立 ， 则 D(XYt+ 丸 = DCX)+ DO7) 。 


MATLAB 中 提供 了 专门 求解 多 元 随机 变量 协 方差 均值 的 cov 函数 。 参 看 以 下 示例 。 


【 例 3-15】 试用 MATLAB 语言 产生 4 个 满足 标准 正 态 分 布 的 随机 变量 ， 并 求 出 其 协 


方差 矩阵 。 


分 析 : 用 MATLAB 给 出 的 randn 函数 可 以 生成 一 个 标准 正 态 分 布 随机 数 的 矩阵。 该 矩 
阵 有 4 列 ， 表 示 4 个 不 同 的 随机 数 变量 。 该 矩阵 有 30000 行 ， 表 示 每 个 随机 数 变量 均 取 
30000 个 样本 点 。 这 样 ， 由 下 面 的 语句 可 以 立即 得 出 这 4 个 随机 数 变量 的 协 方差 矩阵 。 可 


见 ， 该 矩阵 是 对 称 矩 阵 ， 趋 近 于 理论 上 的 单位 窍 阵 。 
其 实现 的 MAITLAB 程序 代码 如 下 : 


>> p=randn(30000,4); 
cov(p) 


运行 程序 ， 输 出 如 下 : 


ans 二 
1.0064 0.0013 0.0047 -0.0005 
0.0013 1.0040 -0.0009 0.0048 
0.0047 -0.0009 1.0110 -0.0119 
-0.0005 0.0048 -0.0119 0.9948 


3.4.4 | 相关 系数 | 


1， 相关 系数 的 基本 概念 


Cov(%, 蕊 为 随机 变量 万 与 的 线性 相 


定义 3-9 DOD>0，D(>0， 见 不 疆 值 -EC VCO 
关系 数 ， 简 称 相 关系 数 ， 记 为 pw ， 即 
把 Cov(X ,站 ) 
人 To VcwO 
【 例 3-16】 设 随 机 向 量 (X,7) 的 联合 概率 密度 为 


Gx )- 必 0<x<L0<y<xr 
Po)=10 其 他 
求 : 1) 常数 4。2) 相关 系数 。 
解 : 1) 由 于 
请 广 ppao=faj = 
所 以 4=2。 


2) 由 1) 的 结果 可 知 (X, 的 联合 概率 密度 为 


2，0 芯 x 乏 0 和 过 所 


P(tJ)= 上 其 他 





(3-33) 


维 随 机 变星 





从 而 利用 式 (3-25) 一 式 (3-28) 可 得 





ECO= | 全 moeydrdy= [| [2 了 3 = 
ED= | 三 ?popydrdy= [2 f 吉庆- 扣 | = 了 








cov00=po0= 三 三 FE-seoopoopay= 人 (3 引 wenpa 


-和 
coD=DD= 三 三 D-aoPeespay=f 人 - 让 me yp= 中 pe 
= 3 一 X + 二 ju 页 
利用 式 〈3-31) 可 得 


coGD= 六 三 F-EooD -Enay= 人 (3 引 -peepa 


2- 记 - 本 =(- 引 -和 +)j- 吉 
从 而 再 利用 式 〈3-33)， 即 得 (X,7) 的 相关 系数 为 


击 
刘 CovGM ID 


2. 数字 特征 的 简单 性 质 

下 面 给 出 数字 特征 的 一 些 简单 性 质 ， 其 证 明 从 略 。 

1) 已 (X 土 Z) = 五 (人 ) 士 E(7) 。 

2) 如 果 天 与 了 相互 独立 ， 则 有 ECX7) = ECXCJE(O) 。 

3) D(X+ 玉 =D(Y)+D(D+2cw 。 

4) 如 果 苞 与 了 相互 独立 ， 则 有 D(XY 寺 门 = DCC+DO 。 

5) 如 果 葡 与 了 相互 独立 ， 则 有 au =0 (或 pr =0 )。 

6) |om|s1l。 

随机 变量 的 期 望 体现 了 随机 变量 取 值 的 平均 ， 随机 变量 的 方差 刻画 了 随机 变量 的 取 值 与 
其 均值 的 偏离 程度 ， 随 机 向 量 的 协 方差 则 反映 了 其 两 个 分 量 之 间 的 联系 ;随机 向 量 的 相关 系 
数 也 称 为 标准 协 方差 ， 它 刻画 了 随机 向 量 两 个 分 量 线性 关系 的 近似 程度 。 一 般 地 讲 ， ol 越 
接近 于 1， 两 个 分 量 间 越 近似 地 有 线性 关系 。 
国 辣 算 与 协 方 差 矩 阵 ] 


在 随机 变量 的 数字 特征 中 ， 除 了 数学 期 望 、 方 差 、 协 方差 和 相关 系数 外 ， 还 有 其 他 的 数 








字 特 征 。 

1. 和 矩 

定义 3-10 ”对 于 随机 变量 X， 若 EX) 为 天 的 大 阶 原点 托 〈 简 称 下 阶 窍 )， 若 
E{[X -ECO] 为 蕊 的 大 阶 中 心 矩 ， 则 易 知 区 的 一 阶 原点 矩 为 才 的 数学 期 望 。 夺 的 一 阶 中 
心 矩 为 零 , 蕊 的 二 阶 中 心 矩 为 区 的 方差 。 

注意 到 


性 S<1+| 人 ， 上 = 2… 
事实 上 ， 当 |X|>1 时 ， 不 等 式 显 然 成 立 ， 当 | 到 <1 时 ，| 寻 和 1， 故 | 八 <1+| 对 
成 立 。 
由 上 式 可 推出 
尼 人 ED)< EdG+IED=1L+EUX 
因此 ， 如 果 高 阶 矩 妃 (X|) <o ， 则 低 阶 矩 EUX)<o ， 即 若 天 的 上 阶 矩 存在 ， 则 苞 的 


大 -1 阶 和 矩 也 存在 ， 从 而 低 于 大 的 各 阶 矩 都 存在 。 

定义 3-11 对 于 随机 变量 站 ,了 ， 若 天 CX472) 存在 ， 则 称 ECX4Y0) 为 天 与 了 的 上 +7 阶 混 
合 矩 ， 著 ELEE -ECX 站 [I 了 -ED 存在， 则 称 它 为 大 与 了 的 k+7 阶 混合 中 心 矩 ， 
帮 1 =12,… 

由 定义 3-11 知 ， 协 方差 Cov(X,7) 为 闻 与 了 的 1+1 阶 混合 中 心 矩 。 

【 例 3-17】 求 取 工 分 布 (xc > 0,2 > 0) 的 原点 和 矩 和 中 心 矩 ， 并 由 前 几 项 结果 总 结 一 般 规律 。 


% 先 用 下 面 的 MATLAB 语 多 求 原 点 矩 
>> Syms Xi; 
syms a lam positive; 
p=lam^a*x^(a-1)/gamma(a)*exp(-lamy#x); 
for n=1:$ 
m=int(x^n#+p,X,0,inf); 
end 
% 结 果 由 下 面 的 语 多 直接 给 出 : 
>> Syms ni; 
m=simple(int((X)An*p,x,0,in 好 
m= lam^(-n)*gamma(n+a)/gamma(a) 
% 通 过 下 面 的 语句 求 出 中 心算 
>> for n=1:7， 
s=simple(int((x-Llam*ya)^n*p,x,0,inf)); 
end 
S 
S=6*a*y(120+154*+a+35*a^2)/lam^7 


MATLAB 的 统计 工具 箱 提供 了 moment 函数 ， 可 以 求 出 向 量 x 的 中 心 高 阶 算 ， 但 没有 直接 
函数 可 以 求 出 原点 矩 。 其 实 ， 可 以 用 下 面 的 语句 求 出 给 定 随机 向 量 x 的 阶 原点 矩 与 中 心 矩 ; 


A,=sSum(x.^r)/length(x) ，B, = moment(x,D 





多 维 随 机 杰 星 





【 例 3-18】 仍 考虑 例 3-17 中 的 随机 数 ， 可 以 用 下 面 的 语句 得 出 随机 数 的 各 阶 拢 。 
其 实现 的 MATLAB 程序 代码 如 下 : 


>> A=U;B=[]; 
p=normrnd(0.3,1.3,30000,1); 人 >) 
n=12:9; 
for 王 n， 

A=[A,sum(p.^r/length(p)]; 

B=[B,moment(p,D]; 
end 
A,B 


运行 程序 ， 输 出 如 下 : 


A = 三 
0.5043 2.3186 3.5019 ”19.0243 ”40.8658 

B = 
0 2.2643 -0.0519 ”15.6093 -1.2970 


由 下 面 的 语句 还 可 以 求 出 各 阶 窍 的 理论 值 。 可 以 看 出 ， 从 生成 的 数据 求 出 的 各 阶 矩 和 理 
论 值 的 拟 合 程度 也 是 很 好 的 。 


SYyImS Xi 
Al=U;BL=0; 
pl=]1/sqrt(2*piD#1.5)*exp(-(x-0.5)^2/(2*1.5^2)); 
for 二 1: 
Al=[Al,vpa(Gnt(x^Ai*p,x,-inbinf),12)]; 
Bl=[Bl1,vpa(int((x-0.S)Ai*p,x,-infinf,12)]; 


end 
Al,Bl 
运行 程序 ， 输 出 如 下 : 
Al= 
[0.500000000001, 2.S0000000000, 3.49999999999, 1.86250000000, 40.8125000000] 
B1= 
[0， 2.23000000000， 0， 15$.1875$000000， 01] 
2.， 协 方差 矩阵 


设 (局 ,和 和) 为 寺 维 随机 变量 ， 称 (ECX ) EC )…;, 开 天) 为 期 望 向 量 ， 称 
(D(1 ,DOC )…,D(X)) 为 方差 向 量 。 
下 面 介 绍 半 维 随机 变量 (六 ,于 ,成 ) 的 协 方差 矩阵 ， 先 从 二 维 情 况 讲 起 。 
设 ( 岂 ,如 ) 为 二 维 随机 变量 ， 它 的 4 个 2 阶 中 心 矩 存在 ， 分 别 记 为 
cu=E{[0 -EN 了 =D() 
cp = 天 {[ 允 -EC -ECO)=Cov( 生 , 筷 ) 
cl=E{LY2 一 EL 一 EC =Cov( ,20)=co 
cz2 = 开 {[X2 -EC 下 ) = DG42) 








cl Cl 
攻 同 
称 为 随机 变量 (六 , 辣 ) 的 协 方差 矩阵 ， 一 般 地 ， 有 如 下 定义 。 
定义 3-12 设 疡 维 随 机 变量 (六 ,和 成) 的 1+1 阶 混 合 中 心 矩 
Gy =CoV(4X 门 = 天 {[3 一 下 ()] [LT 一 开 ( 让 ，7=12… 


都 存在 ， 则 称 和 矩阵 


cc cm 

Ci CC ”Can 
C 呈 (Gy an 7 人 已 

Cnl Cn2 > Cnmm 


为 呈 维 随机 变量 ( 国 ,对 , 筷 ) 的 协 方差 矩阵 。 
由 于 cy =cj，7=12…， 故 协 方差 矩阵 C 是 一 个 对 称 和 矩阵 且 主 对 角 线 元 素 
c =DOY) 
【 例 3-19】 设 ( 习 , 克 ) 服 从 二 维 正 态 分 布 WU ,ar,az,p)， 其 联合 概率 密度 为 
1 o- L_ [和 -2 全 + 和 | 
2raiozVI- 忆 2 一) 


呆 cic> 2 
一 o0 < 辐 < 十 o0 





P(0 避 )= 


由 于 
ci=D(O)=o，c =DO)=ao，cs=cl=Cov( 丰 X)=polos 


因此 协 方差 矩阵 为 
C= co OO10> 
Polo o2 


其 相应 行列 式 为 |c| = ozc2(L- 22) ， 故 道 矩 阵 为 
| a3 | 
|c| -Paic> On 
引入 向 量 


为 向 兢 (X) 
二 9 2 2 ( 局 [ ) 
区 | ] 阿 内 期 望 向 量 


(x-AICTOx 下 
co2 -Poic> ‖ 着 一 铅 ] 


] 
=[O0 一 A2 一 人 中 
|c| ， “人 -po or 冯 了 一色 


1L_ |-Ah -20 一 名) Ca 一 AD 
? o OIO> ar? 





多 维 随机 变量 





从 而 (% , 交 ) 的 联合 概率 密度 p(,z) 可 表示 为 


_CG-ATCTLCc-A 
2 








po)= 一 Le (3-34) 
2x|Ccj 
式 (3-34) 具有 更 易于 推广 的 特点 ， 引 入 向 量 
加 向 歼 (X) 
二 2 ，A= 二 四 
潍 凡人 EC ) 
C 为 协 方差 矩阵， 则 疡 维 正 态 随 机 变量 (X , 妈 ,…, 艺 ) 的 联合 概率 密度 可 表示 为 
1 {x-A CIx-J 
POP 7) = Se 2 
(2z)z|C 


3.5 ”大 数 定律 与 中 心 极限 定理 


在 实际 应 用 中 ， 常 需要 估计 随机 变量 落 在 均值 附近 的 概率 ， 切 比 雪 夫 不 等 式 就 是 解决 这 
类 问题 的 工具 之 一 。 
定理 3-2 〈 切 比 雪 夫 不 等 式 ) 若 随 机 变量 的 方差 为 实数 ， 则 


P 候 -ECG>ej<29，ve>0 
已 





注意 : @ 该 定理 可 以 用 来 估算 概率 的 界限 。 
@ 可 以 在 相关 的 概率 论 教 科 书 中 找到 本 定理 的 证 明 ， 
【 例 3-20】 如 果 某 大 学 的 男生 的 平均 身高 为 175cm， 标 准 差 为 3cm， 试 估计 身高 在 
166 一 184cm 之 间 的 男生 比例 的 下 界 。 
解 : 用 上 表示 男生 身高 ， 则 其 均值 为 E(eE)=175， 标 准 差 为 VD(e) =3 。 由 切 比 雪 夫 不 等 
式 ， 身 高 在 166 一 184cm 之 间 的 男生 比例 : 
8 


-1_PIe_- _DGOJ _1 1_8 
Pf66<5<184} =1-P 骨 -17> 外 >1- 飞 六 =1-9=5 


即 至 少 有 号 89% 的 男生 的 身高 在 166 一 184cm 之 间 。 


注意 : 在 本 题 中 ， 如 果 要 估计 身高 在 170 一 184cm 之 间 的 男生 比例 的 下 界 ， 也 可 以 用 切 
比 雪 夫 不 等 式 ， 但 是 估计 的 精度 可 能 要 降低 。 事 实 上 : 
Pfl70<e<<184} = P{170-175 入 <-175 和 184-175} 
=P{-5< -175<9>P{-5< <-175 和 了 } 


LABB 概率 与 数理 统计 分 析 





9 _16 
=1-P 华 -173> 引 >1- 序 = 二 


【 例 3-21】 往 (0, 1) 区 间 上 随机 投 一 个 质点 ， 其 坐标 上 ~ UV(0,D) 。 重 复 投 点 ， 将 前 靖 
个 观测 值 的 算术 平均 值 计算 结果 列 在 表 3-1 中 ， 总 结 前 叶 个 观测 值 的 算术 平均 值 随 二 增加 的 
变化 规律 。 

解 : 从 表 3-1 中 可 以 发 现 : 当 半 比较 小 时 ， 相 应 的 观测 值 的 算术 平均 值 的 变化 幅度 比较 
大 : 随 着 2 的 增加 ， 平 均值 的 变化 幅度 有 变化 小 的 趋势 ， 并 且 有 稳定 于 0.500 的 趋势 。 因 此 
可 以 猜想 个 观测 值 的 算术 平均 值 随 着 半 的 增加 而 趋向 于 0.5 的 概率 很 大 ， 即 可 以 猜想 


lim 工 》 =0.5 
站 一 oo 1 ra 
成 立 的 概率 应 该 很 大 。 其 中 ， 上 名 表示 上 的 第 丰 次 重复 观测 值 。 





表 3-1 7 个 UV(0,1) 的 随机 变量 的 算术 平均 值 的 变化 规律 


国王 实 本 醒 了 胃酸 二 大 服 二 本 本 2 六 


其 实现 的 MATLAB 程序 代码 如 下 ;: 


x=unidmd(6,1000,1); 
会 []; 
for 1:12 
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ifi<11l 
n=ji10; 
elseif ij 一 11 
n=50*10; 
else 
n=100*10; 
end 
y=x(1:n); 
个 上 sum([y 一 1y 一 2y 一 3.y 一 4y 一 5.y 一 0])/n]; 
end 
运行 这 段 程序 代码 后 ， 计 算出 的 前 ix10 次 的 各 个 地 区 结果 出 现 的 频率 依次 存放 在 12x6 
维和 矩阵 了 的 各 行 中 。 
事实 上 ， 不 仅 对 于 均匀 分 布 Vw(0,1D 的 重复 观测 值 有 上 述 规律 ， 对 于 其 他 的 常用 分 布 ， 也 
有 相同 的 规律 。 一 般 地 ， 在 概率 论 中 有 如 下 的 定理 ， 感 兴趣 的 读者 可 以 在 相关 的 概率 论 教科 
书 中 找到 其 证 明 过 程 。 
定理 3-3 若 随 机 变量 蕊 的 数学 期 望 为 有 限 数 ， 则 


lm 上 》 力 = E(Y) (3-35) 
和 =] 
成 立 的 概率 为 1， 这 里 已, 为 天 的 第 大 次 重复 观测 结果 。 
注意 : @ 考虑 随机 变量 序列 { 筷 } ， 如 果 其 中 的 每 个 随机 变量 的 数学 期 望都 是 有 限 数 ， 
并 且 极限 
lim 工 》TX。 -ECC)]=0 
六 一 oo 玫 re 


成 立 的 概率 为 1， 则 称 随 机 变量 序列 { 万 ,} 满足 强大 数 定律 。 
@ 借助 于 强大 数 定律 的 概念 ， 可 以 把 此 定理 叙述 为 : 若 随 机 变量 闷 的 数学 期 望 为 有 限 
数 ， 蕊 ,为 天 的 第 普 次 重复 观测 值 ， 则 { 蕊 } 满足 强大 数 定律 。 
@ 本 书 中 把 定理 3-3 称 为 科 尔 莫 苞 罗 夫 强大 数 定律 ， 简 称 为 强大 数 定律 。 
定义 3-13 假设 艺 为 随机 变量 ， 若 X 的 数学 期 望 存在 ， 则 称 E(X4) 为 才 的 大 阶 原 
点 和 矩 。 
注意 : 大 阶 原点 天 是 刻画 随机 变量 的 分 布 特征 指标 。 例 如 ，1 阶 原点 和 矩 就 是 数学 期 望 的 天 
阶 原点 答 。 
【 例 3-22】 设 随 机 变量 所 的 大 阶 原点 矩 灵 (X*) 为 实数 ， 成 为 无 的 第 守 次 重复 观测 结 
果 。 试 证 明 样本 丰 阶 原点 拢 
LS 二 
0 


成 立 的 概率 是 1 。 








证 明 : 记 了 = 天， 了 = 和 ，i>1， 则 工 的 数学 期 望 是 有 限 数 ， 世 为 了 的 第 了 次 重复 观 
测 结果 。 由 定理 3-3 知 


， 1T 亡 
2 =EOD 
成 立 的 概率 为 1， 即 
1 雪 wx 起 癌 大 
5 一 (4 


成 立 的 概率 为 1。 
【 例 3-23】〗 考虑 随机 实验 结果 可 能 出 现 的 某 事件 4， 重 复 该 实验 半 次 ， 观 测 到 该 事件 
出 现 的 次 数 记 为 a(4) ， 试 证 明 


im 把 急 = Po4) (3-36) 


1 天 
成 立 的 概率 为 1。 
注意 : 式 (3-36 ) 解释 了 频率 稳定 于 概率 的 原因 。 
证 明 : 定义 随机 变量 
1]， 4 发 生 
x- 人 4 不 发 生 
把 第 隋 次 实验 中 区 的 观测 结果 记 为 闷 ， 则 六 蕊 表示 次 实验 中 4 出 现 的 次 数 。 由 定 
全 | 


理 3-3 知 
1 AS 
lim = 4 = 匹 (X) 〈3-37) 


m-> 吕 了 


成 立 的 概率 为 1。 进 而 ， 成 服从 两 点 分 布 ， 其 概率 密度 矩阵 为 
册 
1I 八 P(4) 
ECY)=0xP(4)+1xPC4)= PC4) (3-38) 


由 式 (3-37) 和 式 (3-38) 可 知 ， 式 〈3-36) 成 立 。 
定义 3-14 设 , 和 加, 为 随机 变量 无 的 款 次 重复 观测 值 ， 称 


从 而 


万 ( 疝 = 民 革 和 全 风 和 < 对) (3-39) 
玫 
为 蕊 的 经 验 分 布 函数 ， 这 里 由 [LE i 和 六 世 < 如) 表示 症 , 友 ,大 中 小 于 >x 的 观测 值 的 


个 数 。 
【 例 3-24】 局 ,所 ，, 克 ,为 随机 变量 万 的 吨 次 重复 观测 结果 ， 试 证 明 对 于 任意 给 定 的 


实数 x: 





多 维 随机 变量 





lim 天 (xz)= 天 (Or) 
成 立 的 概率 为 1， 其 中 居 (zx) 为 随机 变量 考 的 分 布 函数 。 
证 明 : 对 于 给 定 的 实数 x， 定 义 


1 下 均 半 1 泡 产 受 天 
7 了 = 的 和 一 : ， Vi 二 1 
0， 帮 志 X 0， 克 志 X 


则 7 的 随机 变量 也 , 友 ，…, 闷 为 了 的 半 次 重复 观测 结果 ， 并 且 它 们 都 是 服从 两 点 分 布 的 离散 型 
随机 变量 ， 有 共同 的 概率 密度 托 阵 

01T1- P(X < 加 

>、 ] 


出 离散 型 随机 变量 数学 期 望 的 计算 公式 ， 得 
FE)= PCK<o=FOo) 





再 由 定理 3-3 知 
lm 二 >》 攻 = EOD)= EC) (3-40) 
大 =] 


成 立 的 概率 为 1。 注 意 到 ， YI 恰好 等 于 对 个 随机 变量 导 , 六 ,六 中 等 于 1 的 随机 变量 的 个 


=1 


数 ， 即 》 到 恰好 等 于 总 , 半 ，…。 筷 中 小 于 x 的 随机 变量 的 个 数 ， 得 到 
大 三 | 


1 和 ii 过 见 蕊 
了 天- 区 人 0 < (3-41) 
A=1! 


结合 式 〈(3-40) 和 式 (3-41) 及 经 验 分 布 函数 的 定义 ， 可 得 
lim 书 (90= 天 (9) 


成 立 的 概率 为 1。 
定理 3-4 茄 均 为 连续 型 随机 变量 ， 其 密度 函数 为 p(xz) ， (xz) 是 连续 函数 ， 且 


全 JeolpGodr<m， 则 随机 变量 了 = A(CX) 的 数学 期 望 


ED)= | 7oDpCodx 


等 价 于 
ELAOOI= | ADOpCDdr 
本 定理 的 证 明 略 。 
【 例 3-25】 设 /(z) 是 [a, 名 区 问 上 非 负 的 连续 函数 ， 试 利用 大 数 定律 近似 计算 定 积分 


三 roa 
解 : 设 区 ~U(aao， 则 无 的 密度 函数 为 





LE Q<X<b 
7 


0， x 忒 a 或 x>bpb 


P(x) = 


根据 定理 3-4 知 
ECOOldr= 六 /opodtr= 站 ui 站 reod 
进而 根据 定理 3-3 知 
三 7epdr=@-aoaCOI=O-alim yt) 
丰 =] 
成 立 的 概率 为 1， 其 中 忆 , 和 和 是 随机 变量 亢 的 半 次 重复 观测 结果 。 因 此 ， 当 奈 充分 
大 时 ， 有 
十 oo 于 (2--a) LL _ 
人 7eoar= 一 过 天 区 (3-42) 
注意 : 为 利用 式 (3-42 ) 近似 计算 定 积分 ， 需 要 随机 变量 区 的 吴 次 重复 观测 结果 ， 而 
天 ~U(a,b)， 因 而 可 以 通过 计算 机 模拟 产生 叶 个 U(a,b) 分 布 随机 数 来 代替 这 些 重复 观测 结 
果 ， 进 而 可 以 得 到 积分 的 近似 计算 。 这 种 利用 随机 模拟 方法 进行 近似 计算 的 方法 也 叫 蒙特 卡 
罗 方 法 。 
假设 蕊 ~ No ) ， 由 于 理论 上 已 经 证 明 不 能 对 所 有 的 实数 x 精确 地 计算 出 正 态 分 布 函 
数 四 , .xz) 的 值 ， 因 此 也 就 不 能 对 所 有 的 实数 a < 防 精 确 地 计算 概率 


{X= _OxL 


PCUfe[awb)= 广 二 计 。 2 dx 


式 〈3-42) 提供 了 一 种 近似 计算 这 个 概率 的 方法 。 下 面 的 例子 演示 了 利用 蒙特 卡 罗 方 法 
近似 计算 这 种 概率 的 具体 过 程 。 
【 例 3-26】 设 忒 ~ N(0,.D ， 试 用 蒙特 卡 罗 方 法 近似 计算 概率 P(0.1< 成 <2) 。 
解 : 在 MATLAB 命令 窗口 中 输入 代码 ; 
>> Y=unifrnd(0.1,2,1,10000); 


得 到 工 的 各 个 分 量 是 随机 变量 ~ UV(0.252) 的 10000 个 重复 观测 的 模拟 结果 。 用 鳌 表 示 了 的 
第 丰 个 分 量 ， 则 根据 式 〈3-39) 和 标准 正 态 分 布 密度 函数 的 表达 式 ， 
ES jw 0-1 之 上 

为 计算 上 式 ， 在 MATLAB 中 运行 代码 ; 

>> (1.9/(sqrt(2*pi)*10000))*sum(exp(-(Y.*Y)/2)) 

ans 一 

0.4376 

从 计算 结果 可 知 ，P(0.1< 瑟 <2)= 0.4376 
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注意 : @ 在 MAILAB 中 ，Ppi 表 示 圆 周 率 区 的 近似 值 。 

@ 函数 sqrt 用 来 计算 平方 根 ， 如 程序 代码 sqrt(4) 的 计算 结果 为 2。 

图 函数 exp 用 来 计算 以 e 为 底 的 指数 函数 的 值 ， 如 程序 代码 exp([1,2]) 的 计算 结果 为 行 
向 量 {el,e? ) 的 数值 计算 结果 (2.7183, 7.3891 )， 

图 二 元 运算 符 号 .* 称 为 “点 乘 ” 运 算 符 ， 表 示 两 个 具有 相同 维 数 的 和 矩 阵 之 间 的 一 种 运 
算 ， 其 运算 结果 是 一 个 徐 阵 。 该 矩阵 的 维 数 与 原来 矩阵 的 维 数 相 同 ， 其 任何 一 位 置 的 元 素 等 
于 参加 运算 的 两 个 矩阵 相对 应 位 置 元 素 的 匀 积 。 例 如 ，[1,2].*[1,2] 的 运算 结果 为 1xX2 和 矩 阵 
(L 多， 而 [1.2:3,4].*[1.2;3,4] 的 运算 结果 为 2x2? 生 隆 |。 | 

@@ 为 比较 此 例 答案 的 计算 精度 ， 在 MATLAB 中 运行 代码 : 


>> normcdf2,0,1)-normcdf0.1,0,1) 
ans 一 
0.4374 


比较 结果 得 到 P{0.1< 关 <2} 的 计算 结果 是 0.4374， 因 此 本 例 中 的 计算 精度 还 是 比较 


@@ 还 需要 指出 的 是 : 不 同 的 时 候 运 行 以 上 两 名 MATLAB 代码 的 计算 结果 可 能 不 同 ， 这 
是 由 随机 数 的 随机 性 导致 的 现象 。 事 实 上 ， 对 于 同一 问题 进行 两 次 不 同 的 蒙特 卡 罗 近 似 计 
算 ， 结 果 一 般 是 不 同 的 。 


正 态 分 布 是 概率 论 中 最 重要 的 分 布 。 之 所 以 说 它 重 要 ， 一 个 主要 的 原因 是 它 是 自然 界 中 
最 常见 的 ， 而 且 在 实际 问题 中 经 常 遇 到 的 许多 随机 变量 都 服从 或 近似 服从 正 态 分 布 。 也 就 是 
说 ， 服 从 正 态 分 布 的 随机 变量 广泛 存在 。 

那么 ， 如 何 解释 这 种 客观 存在 的 规律 性 呢 ? 本 节 要 学 习 和 讲解 的 3 个 中 心 极限 定理 ， 从 
不 同 的 侧面 给 出 了 “什么 样 的 随机 变量 及 其 函数 服从 正 态 分 布 或 近似 服从 正 态 分 布 ”%” 

概率 论 中 关于 论证 “大 量 独立 随机 变量 的 和 的 极限 分 布 是 正 态 分 布 ”的 一 系列 定理 ， 统 
称 为 “中 心 极限 定理 ”。 中 心 极限 定理 也 是 数理 统计 中 关于 大 样本 统计 推断 的 理论 依据 。 

定理 3-5 (独立 同 分 布 -中心 极 限定 理 ， 即 林 德 柏 格 〈Lindeberg) - 列 维 〔(Levy) 中 心 极 
限定 理 ) 设 随机 变量 凡 ,X,，…, 和 相互 独立 ， 服 从 相同 的 分 布 ， 并 且 数 学 期 望 和 方差 都 存 
在 且 方 差 不 为 0， 即 BE(8)=A，D()=ao >0，i=12…7， 则 对 于 任何 实数 x， 有 下 式 
成 立 : 





广 和 一 
lm 己 人 去 大 二 声 | e 2dr 
阁下 op CT 号 一 0 


证 明 从 略 。 下 面 只 对 本 定理 的 结论 作 分 析 。 








分 析 : 令 了 =》 则 50O)= 引 袜 ]- 误 ecoo -mw 
| 2; 


i=| 


p00 = 可 袜 x |- 立 ooo =no2z，a()=Vnc 
三 1 ti 
再 设 Z, 是 的 标准 化 ， 即 


了 也 =- ) 
和 5) 
那么 ， 该 定理 的 结果 可 写成 
如 Psxd=- 交 id 


等 式 右边 是 标准 正 态 分 布 的 分 布 函数 @(x) 。 这 说 明 当 7 充分 大 时 ，2Z 的 分 布 将 趋 于 标 
准 正 态 分 布 N(0.D) ， 而 Z, 是 上 =y 的 标准 化 ， 那 么 世 的 分 布 趋 于 Ntnusna2) 。 也 就 是 
襄 


说 ， 当 充分 大 时 ， 独 立 同 分 布 的 随机 变量 加 ,%，…, 世 的 和 = 》 艺 将 近似 服从 正 态 分 
i! 

布 Nuna2) 。 反 过 来 讲 ， 如 果 被 研究 的 随机 变量 y 可 以 表示 为 大 量 独立 同 分 布 的 随机 变量 

Xi 和 的 和 = 久 区 ， 其 中 每 个 随机 变量 蕊 对 总 和 y 只 起 微小 的 作用 ， 那 么 ， 可 以 


f=1 

认为 这 个 随机 变量 了 实际 上 是 服从 或 近似 服从 正 态 分 布 NUnp,mncz2) 的 。 

比如 ， 在 进行 某 种 观测 时 ， 不 可 避免 地 会 有 许多 随机 因素 影响 观测 结果 ， 产 生 误 差 。 有 
些 误差 是 由 测量 仪器 的 精密 度 引 起 的 ， 精 密度 可 以 在 温度 、 大 气压 力 或 其 他 因素 的 影响 下 改 
变 。 有 些 误 差 是 属于 观测 者 的 个 人 误差 ， 大 都 是 由 观测 者 的 视觉 、 听 觉 等 引起 的 。 这 些 因素 
中 的 每 一 个 因素 都 可 能 使 观测 结果 产生 很 小 的 误差 ， 所 有 的 这 些 误差 共同 影响 着 观测 结果 ， 
于 是 就 得 到 一 个 “总 误差 ”。 

因此 ， 实 际 观测 得 到 的 误差 可 以 看 做 是 一 个 随机 变量 ， 它 是 许多 数值 微小 的 独立 随机 变 
量 的 总 和 。 按 “中 心 极限 定理 ”%” 这 个 随机 变量 “总 误差 ”应 服从 正 态 分 布 。 

下 面 来 看 一 个 应 用 “独立 同 分 布 -中 心 极 限定 理 ” 来 解决 实际 问题 的 例子 。 

【 例 3-27】 设 有 30 个 电子 元 件 疡 ,D，…,Dio ， 其 寿命 分 别 为 也 ,…,T， 都 服从 参 
数 为 Th 的 指数 分 布 ， 即 万 ~e| 十 ] ，;=12…,30 。 它 们 的 使 用 情况 如 下 ， 己 损坏 后 立即 
使 用 忆 ,,，i= 上 2,…,29 。 求 这 批 电子 元 件 使 用 的 总 计时 间 了 不 小 于 350h 的 概率 。 


解 ， 显然 ~e 人 十)， i=1.2…,30 ， 其 概率 密度 函数 为 


二 | 


p9=|15s ，x>0 
0，。 其 他 


到 = 上 = 
1 =10，DGD)=2r=100。 





sj 《多 维 随机 变 





总 计时 间 了 = 27， E(T)= > am)- 300 ，D(7) = yz)- 3000 。 


1=1! 


要 求 的 是 Pr > 350)， 而 7>350 志 7- E(T)>350 开 (站 之 了 -300>350--300 








TD OO 100 > 0 


本 ER 





那么 P{T >350} = 叶 


这 说 明 电子 元 件 使 用 的 总 计时 间 了 不 小 于 350h 的 概率 近似 等 于 18.14%。 
下 面 再 来 讲解 一 个 “独立 同 分 布 -中 心 极 限定 理 ” 的 特殊 情形 。 
定理 3-6 ( 棣 葛 弗 〈De Moivre) - 拉 普 拉 斯 (Laplace) 中 心 极限 定理 ) 设 在 独立 试验 
序列 中 ， 事 件 4 发 生 的 概率 P(4) = P(0< 疡 <1D) ， 随 机 变量 了 表示 “事件 4 在 半 次 独立 试验 
中 发 生 的 次 数 ”， 则 对 于 任何 实数 x 有 下 式 成 立 ; 
世 一 1P x 
] 一 一 么 xf= 2di 
分 析 : 显然 了 ~ B(mzP) ， 那 么 


EU)= 轻 ，DUo)=mPqg=mPpUL-P)， 
和 -如 -也 -Zdo)_ 因 -EOo)_y* 
TAR 厅 7 
是 对 z 的 标准 变换 。 标 准 变换 后 的 随机 变量 六 近似 服从 标准 正 态 分 布 。 
所 以 ， 定 理 3-6 表明 : 当 哺 充分 大 时 ， 服 从 二 项 分 布 BCz p) 的 随机 变量 了 近似 地 服从 
参数 分 别 为 四，m(1- p) 的 正 态 分 布 NImp,mp(1- 门 ] 。 
定理 3-7〈 李 雅 普 诺 夫 (Lyapunov) 中 心 极限 定理 ) 随机 变量 总 ,双关 相互 独 


立 ， 且 数学 期 望 B( 抽 )=A， 方 差 DCY)=o >0， 记忆 = 》" cz? 。 如 果 中, 满足 如 下 林 德 柏 
i=| 








格 条 件 : 存在 正 数 5 > 0 ， 使 得 当 关 -~>o 时 ， 有 
名 就 半 本 私 -A 六 3=0 
则 


>x -> 和 

人 ma 2 

2 人 - 遍 上 到 

该 定理 说 明 : 无 论 随机 变量 六, 半 , 世 ,服从 何 种 分 布 ， 只 要 相互 独立 ， 期 望 和 方差 存 


在 且 方 差 全 不 为 0， 在 满足 林 德 柏 格 条 件 时 ， 它 们 的 和 说 莹 当 很 大 时 ， 就 近似 地 服从 正 


三 1 








态 分 布 。 
【 例 3-28】 用 中 心 极限 定理 证 明 伯 努 利 大 数 定理 。 
证 明 : 设 在 ” 次 伯 努 利 试验 中 ， 事 件 4 发 生 的 次 数 mm，P(C4)= 疡 。 关 =1 表示 “第 


次 试验 中 事件 4 发生” 则 几 = 多 所 ，4 发 生 的 频率 
i=1 


二 
10= 芝 = 人 加 
显然 世 ~B0P)，ECC)=1xp= 忆 ，DODJ=PL- 站 


又 因为 由 = 交卷 -BC 那么 En)= 轻 ，DUu)=m-p，vs>0， 使 


1=1] 
本 网 证 古 7 
1 | 各 有 2 | 


= P-e 2 = 
PU- TI 攻 记 iTE 了 
由 中 心 极限 定理 知 ; Te 
【 例 3-29】 某 保 险 公 司 多 年 的 统计 资料 表明 ， 在 索赔 客户 中 因 被 盗 而 索赔 的 占 20%， 
以 区 表示 在 随机 抽查 的 100 户 中 因 被 盗 向 保险 公司 索赔 的 户 数 。 
求 : 1) 写 出 扎 的 概率 分 布 。2) 用 中 心 极限 定理 计算 P(L4 乏 忒 入 30} 。 
解 : 1) 七 ~ B(100,0.2) ，P{ 和 = 肝 =Cio0.240.800， 大 = 0,1,2,…,100 
2) EC = 友 =20，D(8=mp(L-m=16 


PU4<Xs30=P|20< 宝 <3052=oc239-oC19=0927 











PCO-oka=A- 


【 例 3-30】 设 世 ~ P(0.3) ， 其 30 次 重复 观测 结果 为 世 , 和 0， 记 
- 1 地 V30( 闷 -0.5) 
2 名 2 
用 计算 机 模拟 Z 的 重复 观测 结果 1000 次 ， 将 了 的 经 验 分 布 函数 太 wo(z) 与 瑟 (z) 在 点 
x=-3+0.55 ，0 过 上 入 12 
的 值 相 比较 ， 并 解释 比较 结果 。 
解 : 在 MAITLAB 命令 窗口 中 输入 代码 : 
>> y=poissmd(0.5,1000,30); 
得 到 一 个 1000x30 阶 的 矩阵 ， 该 矩阵 的 每 一 行 可 以 看 做 三 的 一 次 30 次 重复 观测 的 模拟 结 
果 。 执 行 代码 ; 
>> xm=(mean(y,2)-0.5)*sqrt(60); 
得 到 一 个 1000 维 的 列 向 量 zwm， 它 的 每 个 分 量 都 是 Z 的 一 次 重复 观测 的 模拟 结果 。 运 行 
代码 : 





ET 





>> Sum([xm<-3,xm<-2.5,xm<-2,xm<-1.3,xm<-1,xm<-0.5]X1000 
得 到 葡 的 经 验 分 布 函数 在 -3, -2.5, -2, -1.5, -1, -0.5 点 的 值 : 


ans 一 
0.9960 0.0030 0.0170 0.0610 0.1760 0.3740 





运行 代码 : 
>> Sum([xm<0,xm<0.5,xm<1,xm<1.5,.xm<2,.xm<2.5$,xm<3])/1000 
得 到 元 的 经 验 分 布 函数 在 0, 0.5, 1, 1.5, 2, 2.5, 3 点 的 值 : 


ans = 
0.4700 0.6680 0.8150 0.9160 0.9650 0.9860 0.9960 


运行 代码 : 
>> normcdf-3:0.5:3,0,1) 


得 到 分 布 函数 吓 ;,(z) 在 x=-3+0.5 点 的 值 ，0 和 上 入 12 。 


ans = 
Columns 1 through 8 
0.0013 0.0062 0.0228 ”0.0668 ”0.1587 0.3085 0.5000 0.6915 
Columns 9 through 13 
0.8413 0.9332 ”0.9772 0.9938 0.9987 


将 所 得 的 经 验 分 布 函数 和 正 态 分 布 函数 的 值 列 入 表 3-2。 比 较 两 个 分 布 函数 在 相同 点 的 
值 ， 发 现 它们 的 最 大 误差 不 超过 0.06， 说 明 用 标准 正 态 分 布 函数 来 近似 Z 的 经 验 分 布 函数 的 
效果 还 是 比较 好 的 。 





注意 : 如 果 把 本 例 中 的 30 改 为 1000， 根 据 中 心 极限 定理 ，@(x) 近 似 于 Z 的 经 验 分 布 
函数 的 效果 应 该 更 好 。 ” 





第 4 章 统计 估计 及 统计 特征 


4.1 统计 图 的 绘制 


有 四 口 的 盒 状 图 ，zotcp=0， 得 到 一 个 算 形 盒 状 图 ，'sym' 是 绘图 符号 ; 


统计 工具 箱 提供 了 具体 的 函数 ， 用 于 绘制 不 同 用 途 的 统计 图 ， 主 要 包括 以 下 3 种 : 
@ Box Plots ( 盒 状 图 ): 用 于 描述 数据 样本 ， 也 可 以 用 于 比较 不 同样 本 的 均值 。 
@ Distribution Plots (分布 图 ): 显示 一 个 或 多 个 样本 的 分 布 。 

@ Scatter Plots〈 散 度 图 ): 用 于 显示 一 对 或 多 对 变量 之 问 的 关系 。 


统计 工具 箱 中 绘制 盒 状 图 的 函数 为 boxplot。 其 调用 格式 如 下 : 


boxplot(x) 

boxplot(x, notch) 

boxplot(x, notch, 'sym) 

boxplot(x, notch,'sym', vert) 
boxplot(x, notch, 'sym', vert, whis) 


boxplot 函数 用 于 绘制 单个 样本 的 盒 状 图 。 其 中 ，x 是 分 析 的 样本 :motcp=1， 得 到 一 个 


状 图 ，verc=1， 得 到 垂直 的 盒 状 图 〈 默 认 值 )。 





其 相关 函数 有 :， anoval，kruskalwallis 。 
【 例 4-1】 绘制 样本 的 盒 状 图 。 


>> % 产生 正 态 分 布 的 样本 
% 样本 长 度 

N=1024; 
XL=normrnd(S,1,N,1); 
xX2=normrmd(6,1,N,1); 
X=[xl x2]; 

% 参 数 

figure(l); 

Syml= 站 ; 

notch1=1;  % 四 口 
boxplot(x,notchl,syml); 
figure(2); 

notch2=0; 9% 和 矩形 
boxplot(x,notch2); 


vert0， 得 到 水 平 的 盒 


统计 估计 及 统计 特征 





figure(3); 
vert=0; %% 水 平 
boxplot(x,notch1,'+',vert); 
设置 不 同 的 参数 后 ， 计 算得 到 的 盒 状 图 分 别 如 图 4-1 一 图 4-3 所 示 。 
盒 状 图 中 包括 以 下 图 形 元 素 ; 
@ 盒 的 上 下 边界 线 分 别 对 应 样本 的 第 25 个 和 第 75 个 百分点 处 。 
@ 盒 中 间 的 直线 是 样本 的 中 值 。 如 果 中 值 不 在 盒 的 中 间 ， 表 明 存 在 倾斜 度 。 
@ 盒 的 止 口 是 样 本 中 值 置信 区 间 的 图 形 化 表示 。 

















于 
7 上 一- | ?7 下 f 
6 ee 6 [| 
志 广 - 二 -站 ] 通 5 太一 ] 一 可 
4 加 ] 4 二 | 
朱 : 二 _ ] 3 业 证 上 
1 2 1 2 
列 数 列 数 
图 4-1 重 直 、 带 凹 咒 的 盒 状 图 图 4-2 重 直 、 托 形 的 盒 状 图 





+ or- 一 -CC 一 


列 数 





图 4-3 ”水平 、 带 凹 口 的 盒 状 图 


分 布 图 
统计 工具 箱 提供 了 几 种 函数 用 于 绘制 一 个 或 多 个 样本 的 分 布 ， 包 括 正 态 概 率 图 、 
Quantile-Quantile 图 、Weibull 概率 图 和 累积 分 布 图 。 
1. 正 态 概 率 图 
绘制 正 态 概率 图 的 函数 为 normplot。 
其 调用 格式 如 下 : 


normplot(x) 
h=normplot(x) 


其 中 ， 该 函数 用 于 绘制 正 态 概 率 图 ， 用 于 图 形 化 检验 正 态 性 。x 是 分 析 的 数据 ， 当 x 是 








和 矩阵 时 ， 对 每 一 列 显 示 一 条 直线 ; 大 为 返回 直线 的 句柄 。 
其 相关 函数 有 :， cdfplot、hist、normfit、normpdf、normrnd、normspec、mnormstat。 
【 例 4-2】 绘制 正 态 概率 图 。 
其 实现 的 MATLAB 程序 代码 如 下 : 














% 生 成 正 态 分 布 数 据 
M=100;N=1; 
x=normrmd(0,1,M,N); 
% 生 成 均匀 分 布 
y=rand(OMN); 
Z[x,y]; 
% 绘 制 正 态 概 率 图 
h=normplot(z); 
xlabel(' 数 据 );ylabel(' 概 率 ); 
title( 正 态 概率 图 ); 
legend(' 正 态 分 布 数据 ,均匀 分 布 数据 ); 
grid on; 
正 态 分 布 数据 和 均匀 分 布 数据 的 概率 图 如 图 4-4 所 示 。 
正 态 概率 图 
0.997 一 一 一 一 一 一 
0.99 
0.98 
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几 “050 | 
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0.05 ， 
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0.01 申 
0.003 电 =j=====-= 上 
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数据 


图 4-4 正 态 分 布 和 均匀 分 布 数据 的 概率 图 


在 正 态 概率 图 中 有 3 个 图 形 元 素 :“+” 号 表示 每 一 个 样本 点 数值 的 经 验 概率 ， 实 线 连接 
了 数据 的 第 25 个 和 第 75 个 百分点 ， 表 示 一 个 线性 拟 合 ; 点 画 线 将 实 线 延 伸 到 样本 的 两 端 。 

在 正 态 概率 图 中 ， 如 果 所 有 的 样本 点 都 在 实 线 附近 ， 则 假设 样本 服从 正 态 分 布 是 合理 
的 ; 和 否则， 如 果 样 本 不 是 正 态 分 布 的 ， 则 “+” 号 构成 了 一 条 曲线 。 通 过 观察 图 4-4 中 的 两 
种 不 同 分 布 样本 的 概率 图 可 以 验证 这 一 点 。 

2. Quantile-Quantile 图 

Quantile-Quantile 图 可 用 于 检验 两 个 样本 是 否 来 自 于 同一 分 布 ， 其 函数 为 qqplot。 

其 调用 格式 如 下 : 

qqplot(Cxo) 


qqplot(xy) 
qqplot(x,y,pvec) 
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h=qqplot(.…) 


qqplot 函数 用 于 显示 一 个 或 两 个 样本 的 Quantile-Quantile 图 。 如 果 x 是 正 态 分 布 的 ， 则 
qqplotoo) 近 似 于 直线 ;如 果 x，?y 来 自 于 同一 分 布 ， 则 qqplot(x, 习 是 一 条 直线 。z 了 是 分 析 的 
样本 ， 记 为 返回 直线 的 句柄 。 攻 

其 相关 函 数 有 : normplot。 

【 例 4-3】 绘制 样本 的 Quantile-Quantile 图 。 


>> % 生 成 正 态 分 布 数据 
M=100:N=1]1; 
x=normmd(0,1,M,N); 

%% 生 成 均匀 分 布 

y=rand(M,N); 

到 [xy]; 

% 绘 制 Quantile-Quantile 图 
figure(1)》; 

hl=qqplot(z); 

xjlabel( 标 准 正 态 样 本 的 Quantile); 
ylabel(' 输 入 样本 的 Quantile); 
title(Quantile-Quantile 图 ); 
legend(' 正 态 分 布 数据 ,均匀 分 布 数据 '); 
grid on; 

% 生 成 两 个 正 态 分 布 样本 
x=normrnd(0,1,100,1); 
y=normrnd(0.3,2,50,1); 
figure(2); 

h2=qqplot(xy); 
xlabel(' 输 入 样本 x 的 Quantile); 
ylabel(' 输 入 样 木 y 的 Quantile); 
title(Quantile-Quantile 图 ); 

各 id on; 

% 生 成 两 个 不 同 分 布 的 样本 
Xx=normrnd($,1,100,1); 
y=weibrnd(2,0.3,100,1); 
figure(3); 

h3=qqplot(x,y); 
xlabel(' 输 入 样本 x 的 Quantile'); 
ylabel( 输 入 样本 y 的 Quantile); 
title(Quantile-Quantile 图 ); 

grid on; 


不 同情 况 下 的 输出 效果 如 图 4-5 一 图 4-7 所 示 。 
3. Weibull 概率 图 
Weibull 概率 图 可 用 于 检验 一 个 样本 是 否 服从 Weibull 概率 分 布 ， 其 函数 为 weibplot。 
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图 4-5 正 态 分 布 或 均匀 分 布 样本 的 Quantile-Quantile 图 
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图 4-6 两 个 正 态 分 布 样本 的 Quantile-Quantile 图 
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图 4-7“ 正 态 分 布 和 Weibull 概率 分 布 的 Quantile-Quantile 图 
其 调用 格式 如 下 : 


weibplot(x) 
h=weibplot(x) 
weibplot 函数 可 绘制 Weibull 概率 图 ， 用 于 图 形 化 检验 Weibull 分 布 数据 。 其 中 ，x 是 分 
析 的 数据 ， 当 x 是 矩阵 时 ， 对 每 一 列 显示 一 条 直线 ， /为 返回 直线 的 句柄 。 
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其 相关 函 数 有 : weibfit、weibpdf、weibrmd。 
【 例 4-4】 绘制 样本 的 Weibull 概率 图 。 
其 实现 的 MATLAB 程序 代码 如 下 : 


>> clear all; 

% 生 成 正 态 分 布 数 据 
M=100;N=1; 
x=normrnd(2,1,MN); 

% 生 成 Weibull 分 布 
y=weibrnd(2,0.5,100,1》; 

二 [xy]; 

% 绘 制 正 态 概率 图 
h=weibplot(z); 
xlabel(' 数 据 );ylabel( 概 率 "); 
title('Weibull 概率 图 ); 
legend(' 正 态 分 布 数据 ,Weibull 分 布 数据 ); 
grid of 作 ; 


运行 程序 ， 效 果 如 图 4-8 所 示 。 
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图 4-8 正 态 分 布 和 Weibull 分 布 数据 的 Weibull 概率 图 


由 图 4-8 可 见 ， 对 正 态 分 布 样本 ， 输 出 的 是 曲线 ， 而 对 Weibull 概率 分 布 的 样本 ， 输 出 
的 是 一 条 直线 。 
4， 累 积分 布 图 
如 果 不 想 假设 样本 服从 于 一 个 具体 的 分 布 ， 则 可 以 利用 cdfplot 函数 绘制 累积 分 布 图 。 
其 调用 格式 如 下 : 
cdfplot(x) 
h=cdfplot(x) 
[h,stats]=cdfplot(x) 
cdfplot 函数 用 于 绘制 累积 分 布 图 。 其 中 ，x 是 分 析 的 样本 ; 户 为 返回 曲线 的 句柄 。 
其 相关 函数 有 : ecdf、hist、kstest、kstest2、lillietest、normplot。 





【 例 4-5】 绘制 累积 分 布 函数 图 。 
其 实现 的 MATLAB 程序 代码 如 下 : 


>> clear al]; 

% 生 成 正 态 分 布 数据 

M=100N=1; 

x=normnrmnd(2,1,MN); 

% 生 成 Weibull 分 布 
y=weibrnd(2,0.3,100,1); 

% 绘 制 正 态 概率 图 

hl=cdftplot(x); 

hold on; 

h2=cdfplot(y); 

xlabeiC 样 本 数据 );ylabel( 累 积分 布 函数 F(x)); 
titleCWeibull 概率 图 ); 

legend( 正 态 分 布 数据 "Weibull 分 布 数据 ); 
grid o 作 


运行 程序 ， 效 果 如 图 4-9 所 示 。 
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413 世 二 
散 度 图 是 显示 一 个 变量 对 另 一 个 变量 的 一 种 简单 图 形 ， 它 可 以 用 于 确定 两 个 变量 的 值 或 
两 个 变量 之 间 的 关系 是 否 属于 同一 组 ， 其 函数 为 gscatter。 其 调用 格式 如 下 : 


gscatter(x, y, group) 

gscatter(Xy,group) 

gscatter(x,y,group,clr'symusizZ) 
gscatter(X:y,group,clr'sym,sizdoleg) 
gsScatter(Xy,group,clr'sym,siz,doleg,xnameyname) 
h = gscatter(.) 


gscatter 函数 用 于 绘制 不 同 组 样本 的 散 度 图 。 其 中 ， 输入 参数 x% ?是 具有 相同 大 小 的 向 
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量 ; group 是 组 的 标记 ; clr，sym 是 绘图 的 颜色 和 符号 ; siz 是 大 小 的 向 量 ，doleg 控制 是 否 
显示 图 的 标记 ;xname，yname 是 x 和 ) 轴 的 名 称 。 户 为 返回 图 形 中 直线 的 句柄 。 

其 相关 函数 有 : gplotmatrix、grpstats、scatter。 

【 例 4-6】 比较 3 种 不 同年 代 汽 车 的 重量 和 里 程 数 。 

其 实现 的 MATLAB 程序 代码 如 下 : 


>> % 装 载 数据 

load carsmaljl 

% 比 较 不 同类 型 汽车 的 重量 和 里 程 数 
8scatter(Weight,MPG,Model Year",xos); 
xlabel(' 重量 ); 

ylabel(' 里 程 数 ); 


运行 程序 ， 效 果 如 图 4-10 所 示 。 
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图 4-10 3 种 不 同年 代 汽 车 的 重量 和 里 程 数 的 散 度 图 
由 网 4-10 可 以 看 出 ，1982 年 生产 的 汽车 的 重量 和 里 程 数 明显 区 别 于 其 他 两 种 汽车 。 


4.2 ”变量 分 布 估计 


频率 分 布 表 与 频率 直方 图 

频率 分 布 表 是 对 连续 变量 的 观测 数据 进行 分 组 整理 和 初步 分 析 的 一 种 重要 的 统计 数据 
表 。 频 率直 方 图 是 频率 分 布 表 的 图 形 化 。 通 过 频率 分 布 表 与 频率 直方 图 ， 可 以 实现 对 变量 分 
布 形态 〈 概 率 密度 曲线 ) 的 初步 估计 。 掌 握 频 率 分 布 表 的 编制 与 频率 直方 图 的 绘制 方法 是 统 
计 应 用 的 一 项 基本 技能 。 

下 面 举例 说 明 频 率 分 布 表 的 编制 和 频率 直方 图 的 绘制 方法 。 

【 例 4-7】 钢材 中 的 含 硅 量 世 是 影响 材料 性 能 的 一 项 重要 因素 。 在 炼 钢 的 过 程 中 ， 由 于 
各 种 随机 因素 的 影响 ， 各 炉 钢 的 含 硅 量 关 是 有 差异 的 。 对 含 硅 量 矶 的 概率 分 布 的 了 解 是 有 
关 钢 材料 性 能 分 析 的 重要 依据 。 某 炼 钢 厂 120 炉 正常 生产 的 23MnSi 钢 的 含 硅 量 (%)， 即 硅 
的 质量 分 数 如 下 : 








0.86 0.83 0.77 0.81 0.81 0.80 0.79 0.82 0.82 0.81 
0.82 0.78 0.80 0.81 0.87 0.81 0.77 0.78 0.77 0.78 
0.77 0.71 0.95 0.78 0.81 0.79 0.80 0.77 0.76 0.82 
0.84 0.79 0.90 0.82 0.79 0.82 0.79 0.86 0.81 0.78 
0.82 0.78 0.73 0.84 0.81 0.81 0.83 0.89 0.78 0.86 
0.78 0.84 0.84 0.75 0.81 0.81 0.74 0.78 0.76 0.80 
0.75 0.79 0.85 0.78 0.74 0.71 0.88 0.82 0.76 0.85 
0.81 0.79 0.77 0.81 0.81 0.87 0.83 0.65 0.64 0.78 
0.80 0.80 0.77 0.84 0.75 0.83 0.90 0.80 0.85 0.81 
0.82 0.84 0.85 0.84 0.82 0.85 0.84 0.82 0.85 0.84 
0.81 0.77 0.82 0.83 0.82 0.74 0.73 0.75 0.77 0.78 
0.87 0.77 0.80 0.75 0.82 0.78 0.78 0.82 0.78 0.78 


下 面 介 绍 如 何 编制 频率 分 布 表 ， 以 及 绘制 频率 直方 图 的 MATLAB 实现 方法 。 


>> clear; 


X=[0.86 0.83 0.77 0.81 0.81 0.80 0.79 0.82 0.82 0.81.. 


0.82 0.78 0.80 0.81 0.87 0.81 0.77 0.78 0.77 0.78.… 
0.77 0.71 0.95 0.78 0.81 0.79 0.80 0.77 0.76 0.82.… 
0.84 0.79 0.90 0.82 0.79 0.82 0.79 0.86 0.81 0.78.… 
0.82 0.78 0.73 0.84 0.81 0.81 0.83 0.89 0.78 0.86.… 
0.78 0.84 0.84 0.75 0.81 0.81 0.74 0.78 0.76 0.80.… 
0.75 0.79 0.85 0.78 0.74 0.71 0.88 0.82 0.76 0.85.… 
0.81 0.79 0.77 0.81 0.81 0.87 0.83 0.65 0.64 0.78.… 
0.80 0.80 0.77 0.84 0.75 0.83 0.90 0.80 0.85 0.81.… 
0.82 0.84 0.85 0.84 0.82 0.85 0.84 0.82 0.85 0.84.. 
0.8I 0.77 0.82 0.83 0.82 0.74 0.73 0.75 0.77 0.78.… 
0.87 0.77 0.80 0.75 0.82 0.78 0.78 0.82 0.78 0.78]; 


(1) 数据 分 组 


G 确定 数据 组 个 数 。 根 据 样 本 容量 壮 确 定 分 组 数 上 ， 推 荐 公式 为 =1.87(2 -1D 入 。 

人 @@ 计算 极 差 。 计 算 公 式 为 尺 = max(xipp20) 一 min(0x xx)。 

@) 确定 组 距 。 计 算 公 式 为 &= 民 人/ ， 一 般 取 d 为 数据 的 最 小 测量 单位 的 整数 倍 。 

外 确定 各 组 端点 。 计 算 公 式 为 mw =am+ 哟 =01…m1 ， 其 中 ，a<minfz ， 
a, > max{x} 。 ao 的 确定 方法 : 一 般 地 ，a 比 数据 的 最 小 值 小 半 个 测量 单位 。 


(2) 统计 各 组 频数 


各 组 频数 就 是 数据 落 入 各 个 小 组 中 的 个 数 ， 记 为 六 。 

上 述 计 算 的 MATLAB 实现 由 两 步 完 成 : 第 一 步 ， 先 确定 分 组 数 的 推荐 公式 ， 求 出 分 组 
数 上 后 第 二 步 ， 由 MATLAB 的 hist 函 数 完成 计算 极 差 、 确 定 组 距 、 确 定 各 组 端点 和 统计 各 组 
频数 的 工作 。hist 函数 的 输入 参数 有 两 个 ， 第 一 个 是 数据 向 量 ， 第 二 个 是 小 组 个 数 ，hist 函 
数 的 输出 参数 有 两 个 ， 第 一 个 输出 参数 返回 各 组 的 数据 频数 ， 第 二 个 输出 参数 返回 各 个 数据 


组 的 区 间 位 置 值 (组 中 值 )。 





k=ceil(1.87*#(length(X)-1)^0.4); 
[ni,ak]j=hist(Xk); 
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(3) 计算 频率 
@ 计算 各 组 频率 。 计 算 公式 为 三 = 态 /m。 
其 实现 的 MATLAB 程序 代码 如 下 : 


>> fi=ni/length(X); 


@ 计算 各 组 累积 频率 。 计 算 公式 为 妃 = 》 万 f= 142, 有。 


| 


其 实现 的 MATLAB 程序 代码 如 下 : 
>> mfi=cumsum( 有 ); 


(4) 编制 频率 分 布 表 
逐 … 运 行 上 述 MATLAB 程序 代码 ， 再 运行 如 下 的 程序 代码 : 


>> stats=[[1:k],akni ,fmfi] 
就 可 得 到 120 炉 的 23MnSi 钢 的 含 硅 量 数据 的 频 浴 分 布 ， 稍 加 刺 理 后 结果 见 表 4-1。 


表 4-1 120 炉 的 25MnSi 钢 的 含 硅 量 数据 的 频率 分 布 表 


























组 诈 频数 频率 累积 频 尝 
] 2.0000 0.0167 0.0167 
2 0 0 0.0167 
3 [oo | ao | oo | 00333 
了 0.7235 2.0000 0.0500 
和 0.7473 8.0000 0.1167 
6 29.0000 0.2417 0.3583 
7 1$.0000 0.1250 0.4833 
8 0.8188 36.0000 0.3000 0.7833 
9 0.8427 15.0000 0.9083 
10 0.8665 6.0000 0.9583 
11 0.8904 4.0000 0.0333 0.9917 
12 oo | | | 09917 
1 10000 


接 下 米 介绍 频率 直方 网 和 累积 频率 折线 图 及 其 绘制 方法 。 


频率 直方 图 是 连续 性 变量 频率 分 布 的 图 形 化 ， 累 积 频 率 折线 图 是 累积 频率 分 布 的 图 形 化 。 
在 频率 直方 图 中 ， 横 轴 表 示 观 测 变量 的 观测 值 ， 每 一 个 小 失 形 的 水 平 边 长 等 于 组 距 ; 纵 
轴 表 示 各 组 数据 的 频率 ， 由 于 频率 密度 曲线 下 方 的 面积 恒 等 于 1， 因此 为 保证 直方 图 中 所 有 


的 和 形 面积 之 和 也 等 于 1， 规定 每 个 小 窍 形 的 高 度 等 于 该 组 数据 的 频率 /组 距 。 


在 MATLAB 中 ， 绘 制 直 方 图 的 函数 是 hist 或 histfit。 需 要 指出 的 是 ， 为 了 便于 观察 ， 这 


由 个 琢 数 绘制 出 的 图 形 的 纵 轴 刻度 是 频数 值 。 


hist 琐 数 在 前 面 内 容 中 已 经 见 过 ， 当 有 输出 参数 时 ， 它 将 完成 各 组 频数 的 统计 工作 ; 





无 输出 参数 ， 则 直接 绘制 频率 直方 图 。 


>> hist(X) ”% 画 直方 图 
h=findobj(gcaType',patch);% 为 修饰 图 形 提 取 指 定 属性 对 象 的 图 形 句柄 h 
set(h,FaceColor,y',EdgeColor,b); % 修 饰 ,设置 直方 图 的 线条 颜色 与 填充 色 
运行 程序 ， 效 果 如 图 4-11 所 示 。 
histfit 函数 在 绘制 频率 直方 图 的 同时 附加 一 条 正 态 概 率 密度 曲线 。 
h=histfit(X, 13);% 画 附 正 态 参考 曲线 的 直方 了 图， 并 提取 图 形 名 柄 h 
set(h(1),FaceColor,c',EdgeColor,w); % 修 饰 ， 设 置 直 方 图 的 线条 颜色 与 填充 色 
set(h(2),Color,r); % 修 饰 ,设置 正 态 参考 曲线 的 颜色 


运行 程序 ， 效 果 如 图 4-12 所 示 。 
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图 4-11 hist 函数 绘制 的 直方 图 图 4-12 histfit 函数 绘制 的 直方 图 


有 时 ， 人 们 党 以 频率 分 布 表 中 的 组 中 值 为 横 坐 标 、 以 累积 频率 为 纵 坐 标 绘制 累积 频率 折 
线 〈 请 读者 用 plot 函数 自行 画 出 图 形 )。 

在 应 用 中 ， 可 以 根据 频率 直方 图 〈 累 积 频率 折线 图 ) 了 解 变量 的 概率 密度 曲线 〈 分 布 曲 
线 ) 的 大 致 形状 ， 进 而 估计 变量 的 分 布 类 型 。 在 得 出 初步 的 结论 后 ， 应 继续 通过 分 布 参数 的 
估计 和 分 布 拟 合 检验 得 出 更 为 精细 的 结论 。 

对 于 离散 型 随机 变量 ， 一 般 在 大 样 条 件 下 求 样本 数据 的 频率 ， 画 出 不 同 数据 点 频率 值 的 
火柴 杆 图 《或 散 点 图 )， 通 过 对 已 知 的 离散 分 布 的 分 布 律 图 形 作出 变量 分 布 形态 的 估计 ， 进 
一 步 分 析 参 考 ， 这 里 不 再 介绍 。 

下 面 举 例 说 明 直 方 图 的 应 用 。 

【 例 4-8】 用 模拟 试验 的 方法 直观 地 验证 定理 总 = NUuazj/， 5 兴 - N(0.D 。 

解 : 假设 变量 忌 ~ N(60,25) ， 用 随机 数 生 成 的 方法 模拟 对 大 的 500 次 简单 随机 抽样 ， 
每 个 样本 的 容量 为 16。 利 用 这 500X 16 个 样本 数据 直观 地 验证 样本 均值 忒 的 特 样 分 布 为 均 
值 等 于 60、 方 差 等 于 25/16 的 正 态 分 布 ， 即 达 ~ N(60,25/16) 。 

G@) 用 随机 数 生 成 的 方法 模拟 简单 的 随机 抽样 。 


>> clear; 


x=[]; % 生 成 一 个 存放 样本 数据 的 空 表 ( 维 数 可 变 的 动态 矩阵 ) 





统计 估计 及 统计 特征 





for byk=1:500 % 循 环 控制 ,循环 执行 下 面 的 命令 500 次 ， 在 本 例 中 相当 于 进行 $00 次 抽样 
xxX=normrnd(60,5,16,1); % 生 成 一 个 来 自 N(60,25)、 容 量 为 16 的 样本 【〔 列 向 量 ) 
x=[x,xx];% 将 样本 数据 逐 列 存 入 列表 x, 可 从 MATLAB 的 变量 浏览 器 中 观察 这 个 数 表 


end % 循 环 标志 结束 仿 
@ 计算 每 一 个 样本 的 样本 均值 ， 得 到 亏 , 瑟 ,元 。 齐 


>> xmean=mean(x); % 可 从 MATLAB 的 变量 浏览 器 中 观察 这 $00 个 数据 
@@ 绘制 500 个 样本 均值 亏 ,元 ,元 w 的 直方 图 。 如 果 直 方 图 是 单 峰 对 称 的 ， 则 可 认定 样 
本 均值 元 的 抽样 分 布 是 正 态 分 布 。 


>> k=ceil(1.87*(lengthoo-DA(2/5)); % 确 定 分 组 数 
h=histfit(xmeank); % 绘 制 附 正 态 参考 曲线 的 数据 ,X，……Xso 的 直方 图 
set(h(1),FaceColoryc,EdgeColor,w); % 修 饰 ,设置 直方 图 的 线条 颜色 与 填充 色 


运行 程序 ， 效 果 如 图 4-13 所 示 。 
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4-13 ”样本 均值 数据 的 直方 图 
人 曲 用 这 5$00 个 样本 均值 数据 验证 志 的 均值 等 于 60， 方 差 等 于 2S/16=1.5625。 


>> M=mean(xmean) % 求 双 ,X2Xso 的 均值 ， 以 此 作为 ECX) 的 近似 值 
V=var(xmean) % 求 台 ,X，…Xso 的 方差 ， 以 此 作为 var (X) 的 近似 值 


上 述 结果 表明 ， 样 本 均值 庆 的 抽样 分 布 是 正 态 的 ， 且 用 亏 , 均 ,…, 云 的 样本 均值 与 样本 
人 的 数学 期 望 与 方差 的 效果 较 好 。 这 就 直观 地 验证 了 束 =Nsazjm ， 


疏 


和 五 数 概括 与 盒 状 图 


度量 数据 分 布 特征 常用 的 统计 量 包 括 样本 峰 度 、 样 本 偏 度 和 百分比 分 位 数 。 现 在 先 来 介 
绍 其 相关 概率 。 
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riMATLAB 和 SRSGRH 
(1) 数据 集中 性 的 度量 
数据 集中 性 的 度量 见 表 4-2。 
表 4-2 ”数据 集中 性 的 度量 


统计 量 的 数学 定义 


产 | 
ms (参见 样本 的 经 验 分 位 数 ) 
1 
| 


















统计 量 名 称 MATLAB 函数 


样本 岁 值 






样本 儿 何 均值 


geomean 


s-| 










样本 调和 均值 


(2) 数据 变异 性 的 度量 
数据 变异 性 的 度量 见 表 4-3。 


表 4-3 ”数据 变异 性 的 度量 
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(3) 数据 分 布 特征 的 度量 
数据 分 布 特征 的 度量 见 表 4-4。 


样本 极 关 
样本 内 4 分 位 数 的 亲 师 






表 4-4 数据 分 布 特征 的 度量 















统计 量 的 数学 定义 MATLAB 上 毅 数 
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统计 项 名 称 








样本 的 广 分 比分 位 数 

















kurtosis 


伴 本 峰 虚 









Skewness 


样本 偏 虚 





《4) 两 组 数据 线性 相依 程度 的 度量 
两 组 数据 线性 相依 程度 的 度量 见 表 4-5。 
下 面 对 度 量 数据 分 布 特征 常用 统计 量 的 几 个 概率 作 进 一 步 说 明 。 


样本 峰 度 KU = 从 是 对 单 峰 分 布 曲线 “ 峰 的 平坦 程度 ”或 者 说 “曲线 在 其 峰值 附近 的 
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陡峭 程度 ”的 度量 。 对 于 样本 峰 度 的 定义 ， 不 同文 献 有 所 不 同 ， 般 定 义 为 KU = 大 -3 
此 时 正太 分布 具有 零 峰 度 。 这 里 ， 采 用 了 MATLAB 系统 中 样本 峰 度 的 定义 ， 正 态 分 布 的 峰 
度 为 3。 当 变量 的 样本 峰 度 大 于 3 时 ， 其 密度 曲线 比 正 态 分 布 密度 曲线 陡峭 ;， 当 变量 的 样本 
峰 度 小 于 3 时 ， 其 密度 曲线 比 正 态 分 布 密度 曲线 平坦 。 这 里 ， 必 -ww>g 是 样 
木 的 大 阶 中 心 距 六 的 观测 值 。 

表 4-5 两 组 数据 线性 相依 程度 的 度量 


统计 量 的 数学 定义 


放下 





MATLAB 浮 数 





统计 量 名 称 








样本 协 方 关 







样本 相关 系数 


样本 偏 度 SK = 饵 是 对 变量 的 分 布 围绕 其 均值 的 对 称 情况 的 度量 。 如 果 样 本 偶 度 等 于 
克 
0， 则 变量 分 布 的 形状 是 对 称 的 〈 如 正 态 分 布 ); 如 果 样 本 偏 度 大 于 0， 则 变量 分 布 的 形状 是 
右 尾 长 ， 变 量 取 值 的 密度 左边 往 大 ， 称 为 正 〈 或 右 ) 偏 ， 如 果 样 本 偏 度 小 于 0， 则 变量 分 布 
的 形状 是 左 尾 长 ， 变 量 取 值 的 密度 右边 偏 大 ， 称 为 负 《〈 或 左 ) 偏 。 
样本 的 百分比 分 位 数 也 称 为 样本 六 的 分 位 数 ， 表 示 如 下 : 
则 -| 总 7 有 天 入 
” 10.5(Cp +xoprD) PEN 
其 中 ，N 为 正 整 数 集 。 关 于 样本 的 百分比 分 位 数 ， 应 用 最 多 的 是 样本 的 4 分 位 数 C = ms， 
@ =ms 和 @ =mzs， 分 别称 为 第 一 4 分 位 数 、 第 二 4 分 位 数 与 第 三 4 分 位 数 ， 它 反映 了 有 
1/4 的 数据 小 于 Q@ ， 有 1/4 的 数据 大 于 CO ， 有 一 半 的 数据 介 于 g@ 与 0 之 间 。 
接 下 来 给 出 这 几 个 概念 在 估计 变量 分 布 形态 方面 的 一 种 综合 应 用 一 一 五 数 概括 与 box 网 。 
在 统计 应 用 中 ， 常 用 样本 数据 的 最 小 值 、 最 大 值 和 4 分 位 数 来 反映 变量 分 布 的 信息 ， 称 
为 五 数 概括 ， 而 盒 状 图 则 是 五 数 概括 的 图 形 化 ， 如 图 4-14 所 示 。 


-| | 





一 
xz OO 2 马 2 
图 4-14 盒 状 图 


从 box 图 可 以 看 出 样本 数据 的 如 下 特征 ， 并 可 由 此 来 推测 变量 的 分 布 特点 。 

@ 中 心 位 置 。 中 位 数 2, = ms 所 在 的 位 置 即 为 样本 数据 的 中 心 ， 在 [xi ,@] 和 
[O,, xu] 中 各 包含 一 半 的 样本 数据 。 

@ 散布 情况 。 样 本 数据 全 部 位 于 [xu, x ,] 内 ， 若 将 样本 数据 等 分 成 4 份 ， 那 么 在 区 间 








px 2]，[2,2]，[2, 2 和 [2C, xm] 内 各 占 U4。 各 区 间 较 短 时 ， 特 别 是 CDxo, xm] 与 
[2, 2] 较 短 时 ， 表 示 样 本 较 集 中 ， 反 之 ， 较 为 分 散 。 

图 偏 度 。 如 果 和 矩形 位 于 中 间 位 置 ， 中 位 数 又 位 于 矩形 的 中 间 位 置 ， 则 分 布 较为 对 称 ， 
否则 是 偶 态 分 布 。 如 果 托 形 偏 于 左 端 〈 或 右 端 )， 中 位 数 偏 于 矩形 左 端 〈 或 右 端 )， 可 知 分 布 
是 正 侦 〈 或 负 俩 )， 此 时 右 〈 左 ) 尾 较 长 。 


邮 离 群 值 。 当 和 抵 形 两 端 线段 长 度 相 差 过 大 时 ， 表 明 长 的 一 侧 有 特大 〔〈 或 特 小 ) 值 ， 称 
为 离 群 值 ， 用 “+ 二” 标记 ， 而 线段 终于 世 ， 《或 Xan )， 甚至 终于 和 2) 《或 Xa3) 》5 

【 例 4-9】 设 有 两 个 教学 班 ， 各 有 30 名 学 生 。 在 数学 课程 上 ，A 班 用 新 教学 方法 组 织 
教学 ，B 班 用 传统 方法 组 织 教 学 ， 现 得 期 末 考 试 成 绩 如 下 : 

A:82,92,77,62,70,36,80,100,74,64,63,56,72,78,68,65,72,80,58.92,79,92,65,56,85,73,61,71,.42,89 

B:357,67,04,54,77,65,71,58,59,69,67,84,63,95,81,46,49,60,64,66,74,55,58,63,65,68,76.72,48,72 

试 在 同一 坐标 轴 上 画 出 相应 的 盒 状 图 ， 并 对 两 个 班 的 成 绩 进行 初步 的 分 析 比 较 。 

MATLAB 绘制 盒 状 图 的 命令 是 boxplot。 

>> clear all; 


X=[82,92,77,62,70,36,80,100,74,64,63,56,72,78,68.65,72,80,58,92,79,92,65,56， 


EC 


74,55,58,63,65,68,76,72,48,72]; 
boxplot(X) %boxplot 命令 将 输入 矩阵 的 每 一 列 视 为 一 个 变量 (的 样本 数据 ) 


运行 程序 ， 效 果 如 图 4-15 所 示 。 














列 数 
图 4-15 ”两 个 班 的 成 绩 的 盒 状 图 


从 图 4-15 中 可 以 直观 地 看 出 ， 两 个 班 的 数学 成 绩 的 分 布 是 正 态 〈 对 称 ) 的 ，A 班 成 绩 
较为 分 散 〈 方 差 大 )，B 班 成 绩 则 较为 集中 (方差 小 )。A 班 成 绩 明 显 高 于 B 班 〈 均 值 比较 ， 
并 且 A 班 25% 低 分 段 上 限 接近 B 班 的 中 值 线 ，A 班 的 中 值 线 接近 B 班 25% 高 分 段 下 限 )，A 
班 的 平均 成 绩 约 为 70 分 〈 中 值 )，B 班 约 为 65 分 〈 中 值 )，A 班 有 一 名 同学 的 成 绩 过 低 〈 离 
群 )， 而 B 班 成 绩优 秀 的 只 有 一 人 《【 离 群 )。 需 要 注意 的 是 ， 从 图 4-15 中 不 能 得 出 新 教学 方 
法 一 定 优 于 传统 教学 方法 的 结论 ， 因 为 并 不 知道 两 个 班级 的 学 生 原 有 的 数学 基础 是 怎样 的 。 


4.3 参数 的 点 估计 


点 估计 的 中 心 任务 是 通过 样本 构造 参数 的 估计 量 ， 有 了 估计 量 便 有 了 估计 值 。 本 节 讲 述 


统计 估计 及 统计 特征 





两 个 问题 ， 一 是 介绍 两 种 常用 的 构造 统计 量 的 方法 ， 二 是 建立 估计 量 优良 性 的 评判 标准 。 

设 总 体 X 的 分 布 类 型 F(0sg) 已 知 ，@ 是 待 估计 参数 。 所 谓 参数 的 点 估计 ， 是 指 从 该 总 
体 中 抽取 样本 疝 , 克 ,第 ， 由 样本 提供 的 信息 对 未 知 参数 作出 估计 。 一 般 是 建立 适当 的 统 
计量 6X, 刀 ,和 艺 ) ， 当 样本 观察 值 为 zz 和 sx 时， 以 Cn 交 wz) 作 为 2 的 估计 值 ， 
这 种 用 统计 量 来 估计 总 体 未 知 参数 的 方法 称 为 参数 的 点 估计 法 ， 称 太 操 ,X，, 艺 ) 为 的 
估计 量 。 若 总 体 中 有 : 个 未 知 参数 ， 则 要 建立 1 个 未 知 参数 的 估计 量 。 在 不 强调 估计 量 和 估 
计 值 的 区 别 时 ， 通 常用 “估计 ”这 个 笼统 的 称呼 。 

构造 估计 量 的 方法 有 很 多 种 ， 如 和 矩 估 计 法 ， 极 大 似 然 估 计 法 、 最 小 二 乘法 、 贝 叶 斯 方 
法 等 。 
史 国 和 估计 法 

由 辛 钦 大 数 定律 与 科 尔 莫 戈 罗 夫 强大 数 定律 知 ， 如 果 总 体 万 的 人 阶 矩 ECX 存在 ， 则 
样本 刀 ,X，… 和 的 大 阶 矩 让 = 上 > Xi 依 概率 收敛 于 总 体 的 丰 阶 矩 ECK4 ， 样 本 短 的 连续 

| 


函数 依 概率 收敛 于 总 体 矩 的 连续 函数 。 这 就 启发 我 们 可 以 用 样本 矩 作 为 总 体 矩 的 估计 量 。 这 
种 用 相应 的 样本 矩 去 估计 总 体 矩 的 估计 方法 称 为 矩 估 计 法 。 

设 总 体 的 分 布 函 数 中 含有 大 个 未 知 参数 避 ,2 ,6 ， 假 定 总 体 的 丰 阶 具 EC ) 存在 ， 则 
总 体 的 7! 阶 矩 EX ) SLS 有 是 Q,2 ;64 的 函数 。 用 样本 的 2 阶 矩 作为 总 体 的 阶 德 的 估 
计 ， 则 得 到 上 个 方程 〈《 称 为 托 方 程 组 ) 


站 (6,6…,60) = 二 > ， 1=12,… 尖 
i=] 


解 此 方程 组 ， 得 到 如 ,2,…;6. 的 解 肥 ( 症 和 和) ，…， (和 ,世故 )， 分 别称 
(站 和 (为 和 ,2 ,6, 的 矩 估 计量 。 相 应 地 ， 把 估计 量 的 观 
察 值 有 0 外 0 和 0) 称 为 ,2,,6t 的 矩 估计 值 。 

【 例 4-10】 设 总 体 乞 的 概率 密度 函数 为 

DOx2- 上 ，0<x<1 
/ear 和 其 他 
其 中 ，0> 0 为 未 知 参 数 ， 为 ,和 ,区 为 来 自 志 的 样本 ， 试 求 2 的 和 矩 估 计 。 
解 : 因为 


人 To To 
E(X)= 厂 xr(x)dxr= 必 人 2 dx= 人 ex dx=T 


令 部 = ECO=T25 ， 解 得 9 的 抵 估 计量 为 6= -4 。 


点 估计 的 算法 是 由 皮尔 逊 提出 的 ， 它 直观 、 简 便 ， 对 总 体 数学 期 望 和 方差 进行 估计 时 不 
需要 知道 总 体 的 分 布 ， 但 是 它 要 求 总 体 的 原点 矩 存 在 ， 而 有 些 随机 变量 〈 如 柯 西 分 布 ) 的 原 
点 矩 不 存在 ， 因 此 就 不 能 用 此 方法 进行 参数 估计 。 此 外 ， 一 般 情 况 下 ， 短 估计 量 不 具有 唯一 
性 〈 如 泊 松 分 布 中 参数 4 的 矩 估 计 )， 原 因 在 于 建立 珑 法 方程 时 ， 选 取 哪 些 总 体 矩 用 相应 样 








本 和 矩 代替 具有 一 定 的 随意 性 。 它 常常 没有 利用 总 体 分 布 函数 所 提供 的 信息 ， 因 此 很 难保 证 它 


有 优良 的 性 质 。 


下 面 首 先 举 例 说 明 极 大 似 然 估计 法 的 数学 原理 。 
【 例 4-11】 设 有 甲 、 乙 两 个 布袋 ， 甲 袋 中 有 99 个 白 球 和 1 个 黑 球 ， 乙 袋 中 有 1 个 白 球 
和 9%9 个 黑 球 。 由 于 某 种 原因 不 能 识别 哪 一 个 是 甲 袋 ， 哪 一 个 是 乙 袋 。 问 能 和 否 用 统计 的 方法 
识别 出 来 ? 
下 面 对 这 个 问题 进行 数学 描述 与 分 析 。 
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设 变量 X 表示 袋 中 的 白 球 数 ， 则 x~|， 5 六 是 未 知 的 分 布 参数 ， 其 取 值 依赖 于 





变量 怀 代 表 的 是 甲 袋 中 的 白 球 数 ， 还 是 乙 袋 中 的 白 球 数 。 显 然 ， 当 变量 怀 代 表 的 是 甲 袋 中 的 
白 球 数 时 ， 与 忆 = 99/100 是 等 价 的 ;变量 X 代表 的 是 乙 袋 中 的 白 球 数 时 ， 与 疡 = 1/100 是 等 
价 的 。 
可 以 通过 抽样 〈 任 取 一 袋 ， 从 该 袋 中 任 取 一 球 ， 观 察 其 颜色 ) 的 方法 来 确定 已 = 99/100 
还 是 疡 = 1/100。 

设 事 件 4 表示 “取出 的 一 袋 为 甲 袋 ” 事件 丐 表示“ 从 袋子 中 取出 的 是 白 球 ” 则 

P(4)=0.5，P(B14)=99/100，P(814 科 =1100 

假定 取出 的 是 白 球 。 在 已 知 取出 的 是 白 球 的 条 件 下 ， 判 断 该 球 来 自 甲 袋 还 是 乙 袋 的 问 
题 ， 可 由 贝 叶 斯 公式 ， 通 过 比较 概率 P(L4|13) 和 P(4|B) 的 大 小 来 作出 判断 。 由 于 在 一 次 试 
验 中 大 概率 事件 容易 发 生 ， 因 此 ， 若 P4| 有 >P4l 有 下 ， 则 该 球 来 自 甲 袋 ， 若 
P(41B)< PC418) ， 则 该 球 来 自己 袋 。 





因为 
-PUB) PoD)PBI4) 
5 P(B) PC)P(CB14+PCDP(B1 们 


PCB) PLD)P(B14+PCDPLB| 人 人 
这 两 个 式 子 的 分 母 相 同 ， 分 子 中 P(4) = P(4) ， 故 其 大 小 取决 于 P(B14) 和 PB14 的 大 小 ， 
而 P(814) 和 ZP(B|4) 的 取 值 恰好 等 于 变量 X 的 分 布 参数 P 的 两 个 可 能 的 取 值 。 这 说 明 参 数 
的 取 值 同 逆 概率 P(B14) 和 P(814) 之 间 的 大 小 是 相互 决定 的 ， 即 P= 99/100 等 价 于 
P(4|1B)> P(41B);， PP= LU100 等 价 于 PC41B)< PC41B) 。 

通过 计算 可 知 ，P(41B)> P(41B)， 因 此 疡 =99/100， 即 现在 取出 的 是 甲 袋 。 

概括 上 面 的 思想 方法 ， 就 可 以 得 到 极 大 似 然 估 计 法 的 数学 原理 一 一 大 概率 原理 : 大 概率 
事件 在 一 次 试验 中 容易 发 生 。 或 者 说 ， 在 一 次 试验 中 已 经 发 生 的 事件 具有 较 大 的 概率 ， 而 变 
量 的 分 布 参数 有 助 于 关于 该 变量 的 大 概率 事件 的 发 生 。 

接 下 来 讲解 参数 的 极 大 似 然 估计 的 方法 。 

设 扣 ,~ 下， 并 记 变 量 基 的 概率 分 布 律 或 概率 密度 函数 为 p0G@ ,2 6) ， 
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其 中 9,2,…,6, 是 变量 蕊 的 大 个 未 知 参数 。 

又 设 对 样本 (五 ,克基 ) 进行 一 次 观测 ， 得 到 样本 值 (xz,…x) ， 这 相当 于 半 个 相 
互 独 立 的 事件 { 忆 =2 0 = 友和 人 = 区)} 在 一 次 试验 中 同时 发 生 ， 即 事件 C = 交 ， 
和 =2 = 应 该 有 较 大 的 概率 值 。 

(1) 交 是 离散 变量 的 情形 

根据 前 述 极 大 似 然 估 计 法 的 数学 原理 ， 可 令 


PC = 如 和 = 友和 = 区 = Pt = 三 = 械 [ee;e,2…,6 
i=1 三] 


达到 最 大 值 ， 此 时 对 应 的 参数 值 及 ,6 ,6 即 为 参数 真 值 凡 ,Q,,…,6, 的 估计 值 。 
(2) 天 是 连续 变量 的 情形 
对 连续 变量 考虑 概率 PLX = xn, 冯 = 忆 ，…, 北 = 辣 } 是 没有 意义 的 。 因 此 ， 考 虑 随机 点 
(总 ) 落 入 以 点 (yn) 为 项 点， 以 AAAx 为 边 长 的 靖 维 矩形 区 域 C 
内 的 概率 ， 这 个 概率 近似 等 于 
PIG AMX)sG= 工 Pt:6,2…63TTAr 
i=1 1 


同 理 ， 可 令 这 个 概率 达到 最 大 值 ， 此 时 对 应 的 参数 值 和 ,G,…,G 即 为 参数 真 值 @,@,…,E, 的 
估计 值 。 
注意 到 ，Au(i=12…, 中 与 @,@， 肥 无关， 使 Plx;6,@，,6JTAx 达到 最 大 值 
1 i=1 


的 点 (全 ,261) 与 使 TT Pa:g,@ 6 达到 最 大 值 的 点 相同 ， 而 后 者 在 表达 形式 上 连续 
1=1 


型 变量 与 离散 变量 是 一 致 的 ， 因 此 给 出 下 面 的 定义 。 
定义 4-1 把 样本 国 ,2，…xo 的 联合 概率 密度 函数 〈 概 率 分 布 律 或 概率 密度 函数 ) 


LO)=Z000m239)= Pb;8) 


| 
称 为 参数 0= (和 ,2，……,6:) 的 似 然 函数 。 
没 @ 为 参数 0 所 有 可 能 的 取 值 范围 ， 称 为 参数 空间 。 若 存在 统计 量 6e@ ， 使 得 


OrJ=maxZOnyz ex:6) 
gee 


则 称 6 为 参数 0 的 极 大 似 然 估 计量 (Maximum Likelihood Estimator，MLE )。 

一 般 情 况 下 ， 求 似 然 函数 忆 6) 的 极 大 值 时 ， 要 先 求 其 驻 点 ， 涉 及 导数 运算 。 由 于 似 然 
函数 Z(2) 的 数学 表达 式 往 往 是 积 与 早 的 结构 ， 其 导数 运算 会 比较 宛 繁 ， 不 方便 求 驻 点 ， 而 对 
数 函 数 Inx 是 x 的 单调 增 函 数 ， 因 此 对 数 似 然 函 数 ln Z(6) 与 似 然 函数 5(6) 在 同一 点 处 取得 最 
大 值 。 另 外 ， 对 数 能 够 将 积 运算 转化 为 和 运算 ， 将 窜 运 算 转 化 为 积 运算 ， 从 而 使 似 然 函 数 
Z(9) 的 数学 表达 式 线性 化 ， 方 便 导 数 与 求 驻 点 运算 。 于 是 ， 通 常情 况 下 ， 应 当先 将 似 然 函 数 
Z(9) 转 化 为 对 数 似 然 函数 InZ(2) ， 然 后 再 求 驻 点 。 

【 例 4-12】 求 事件 4 发 生 的 概率 P 的 极 大 似 然 估 计 。 











解 全 区 -| 2 4， 其 中 os 表示 事件 4 发 生 ， 则 区 的 概率 密度 为 


po3D)=P-p (Cr=0D 
故 参数 疡 的 似 然 函 数 为 


几 y 五 y (1]- 厂 
rp- 让 闫 tmpira-p 


三 ] 


对 数 似 然 函 数 为 
mZ(PD)=[ 宇 sj]mp+[o- 昱 xjmd- 由 
对 忆 求 导数 ， 令 导数 为 0， 就 有 


-证 (-- 


又 在 驻 点 处 有 
9 nz 一 
Dp” P(L- 亡 ) 
所 以 ， 驻 点 即 为 极 大 值 点 ， 即 疡 的 极 大 似 然 估计 为 户 = 大。 
【 例 4-13】 设 式 ~ Na) ， 求 4 和 ee 估计 。 


则 似 然 函数 为 


3 一 AD 
2 生 








<0 


解 ; 

















xuwcoo)=[ 1 人 -如 |。 
il V2TC 2ra” 
将 其 取 对 数 ， 并 令 关 于 上 嫉 c” 的 一 阶 导数 为 零 ， 则 得 
本 CT 电厂 1 二 > = 亡 E0 


BinZ(par: )》 用 2 
0 
Dao? 2 > 


2 
解 此 关于 上 per 的 方程 组 ， 得 驻 点 


Re - 阶 导 函 数 矩 阵 是 非 正定 和 矩阵， 因此 驻 点 即 为 似 然 函 数 的 极 大 值 
点 ， 并 将 的 样本 表达 式 代入 的 驻 点 表达 式 ， 得 /与 的 极 大 似 然 估计 为 
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【 例 4-14】 随机 产生 100 个 服从 正 态 分 布 N(2,0.5”) 的 样本 数据 X， 并 用 这 些 数 据 估 计 
总 体 N(po2) 中 的 参数 如 a ， 求 出 参数 的 最 大 似 然 估 计 值 和 置信 水 平 为 99% 的 置信 区 间 。 亿 
分 析 : 随机 产生 的 100 个 数据 可 视 为 从 总 体 中 抽出 的 容量 为 100 的 样本 ， 样 本 的 观测 值 
就 是 这 100 个 数据 ， 可 用 命令 normfit(X, alpha) 求 出 参数 pcr 的 估计 。 
其 实现 的 MATLAB 程序 代码 如 下 : 


>> clear al]; 
X=normrnd(2,0.5,100,1); % 产 生 100 个 样本 数据 
[muhabsigmahat,muci,sigmaci]=normfit(X,0.01) 


运行 程序 ， 输 出 如 下 ， 


muhat = 2.0240 
sigmahat = 0.4343 
muci = 

1.9099 

2.1380 
sigmaci = 

0.3665 

0.5298 


注意 : 参数 ja 的 估计 最 大 似 然 值 分 别 为 2.0240、0.4343， 参 数 ra 的 置信 水 平 为 99% 
的 置信 区 间 分 别 为 [1.9099，2.1380]、[0.3665，0.5298]。 这 一 估计 结果 和 总 体 N(L,a2) 中 的 参 
数 真 实数 值 UL=2，a=0.5 是 非常 接近 的 。 


根据 前 面 几 个 例子 的 讲解 ， 可 以 概括 出 求 极 大 似 然 估计 值 的 一 般 步 又 : 

1) 明确 变量 的 分 布 律 和 密度 函数 。 

2) 写 出 似 然 函 数 2(O) 。 

3) 求 似 然 函 数 L6) 的 最 大 值 点 ， 得 2ove 。 

4) 应 用 问题 中 ， 将 样本 数据 代入 @ rz 求 出 具体 的 估计 值 。 

值得 注意 的 是 ， 求 解 对 数 似 然 方程 组 是 建立 在 其 可 导 并 且 导 数 变 号 的 基础 上 的 ， 如 
例 4-12 和 例 4-13。 若 不 满足 这 一 条 件 ， 需 针对 似 然 函 数 忆 (6 ,2 ,6 ) 的 单调 性 ， 利 用 极 大 
似 然 估计 的 基本 原理 直接 对 Z(&,2,,…,6,) 的 最 大 值 问 题 进行 讲解 。 

极 大 似 然 估 计量 有 一 个 简单 而 有 用 的 性 质 : 设 2 的 函数 g = g(2) 是 @8 上 的 实 值 函 数 ， 且 
有 唯一 反 函 数 。 如 果 6@ 是 6 的 极 大 似 然 估计 量 ， 则 g(6) 也 是 g(6) 的 极 大 似 然 估 计量 。 这 个 
性 质 称 为 极 大 似 然 估计 的 不 变性 。 根 据 这 一 性 质 ， 可 以 使 一 些 复杂 结构 的 参数 的 极 大 似 然 估 
计 问 题 简单 化 。 

极 大 似 然 估计 法 是 在 变量 分 布 类 型 已 知 的 情况 下 使 用 的 一 种 参数 估计 法 。 一 般 地 ， 用 
极 大 似 然 估计 法 所 得 的 估计 的 性 质 比 用 矩 估 计 法 所 得 的 性 质 要 好 ， 故 通常 多 用 极 大 似 然 佑 
计 法 。 





MATILAB 进行 极 大 似 然 估计 的 函数 为 mle。 
其 调用 格式 如 下 : 


[phat pcij=mle(data,'distribution', dist 'alpha', a, 'ntrials', mn) 

其 中 ， 输 出 参数 phat 是 指定 分 布 的 参数 的 极 大 似 然 估 计 值 (多 参数 时 为 行 向 量 )，pci 是 
参数 的 区 间 估 计 的 置信 上 限 和 下 限 〈 与 参数 对 应 的 一 维 列 向 量 ， 可 以 省 略 )。 输 入 参数 data 
是 样本 数据 向 量 〈 不 可 省 略 )。 引 用 参数 'distribution' 及 其 取 值 dist 设置 变量 的 分 布 类 型 (应 
用 中 ，dist 要 用 具体 的 分 布 名 称 字符 串 替 换 ， 并 用 单 引 号 引起 )， 二 者 要 成 对 出 现 〈 可 以 同时 
默认 为 正 态 分 布 )。 引 用 参数 'alpha' 及 其 取 值 a 设置 区 间 估 计 的 显著 性 水 平 ， 二 者 要 成 对 出 现 
《可 以 同时 省 略 ， 默 认 值 为 0.05， 即 置信 水 平 为 0.95)。 引 用 参数 ntrials' 及 其 取 值 ， 仅 在 分 布 
类 型 为 二 项 分 布 时 引用 《对 于 其 他 分 布 可 以 省 略 )， 用 于 设置 二 项 分 布 中 试验 的 次 数 。 

dist 的 取 值 包括 Beta，Bemrmoulli，Binomial，Discrete Uniform，Exponential，Extreme Value， 
Gamma，Geometric，Lognormal，Negative Binomial，Normal，Poisson，Rayleigh，Uniform， 
Weibull。 

【 例 4-15】 通常 情况 下 ， 引 用 常数 的 测定 值 服从 均值 为 w 、 标 准 差 为 ce 的 正 态 分 布 。 
某 人 在 实验 中 使 用 金 球 测定 引力 常数 ，6 次 测定 的 观察 值 为 6.683，6.681，6.676，6.678，6.679， 
6.672。 试 用 极 大 似 然 估 计 法 对 未 知 参数 wp. 和 作出 估计 。 

其 实现 的 MATLAB 程序 代码 如 下 : 

>> clear alj; 


x=[6.683,6.681,6.676,6.678,6.679,6.672]; 
phat=mle(x,"distribution',norm'valpha',0.05) 


运行 程序 ， 和 输出 如 下 : 


phat = 
0.6782 0.0035 


即 w 的 估计 值 为 6.6782，c 的 估计 值 为 0.0035。 其 实 ， 在 此 例 计算 中 ，mle 函数 的 调用 可 以 
简化 为 p=mle(x)。 


[于 估计 量 的 性 能 分 析 ] 

在 分 析 和 评论 估计 量 性 能 的 时 候 ， 常 用 的 准则 包括 无 偏 性 准则 、 均 方 误 差 准 则 和 相合 性 
准则 。 

1. 无 偏 性 准则 

估计 量 是 随机 变量 ， 对 于 不 同 的 样本 值 会 得 到 不 同 的 估计 值 。 用 户 希望 估计 值 在 未 知 参 
数 的 真 值 附 近 摆动 ， 而 它 的 期 望 值 等 于 未 知 参数 的 真 值 。 这 就 产生 了 无 偏 性 准则 。 

定义 4-2 〈 无 偏 估计 ) 设 旭 所, 友 …, 艺 ) 是 变量 克 的 未 知 的 一 维 参数 9 的 估计 量 ， 若 
E(O)=9， 则 称 6 为 g 的 无 偏 估计 ， 否 则 称 为 有 偏 估计 。 

定义 4-3〈 渐 近 无 偏 估 计 ) 设 6( 和 0 , 交 ,万 ) 是 变量 艺 的 未 知 的 一 维 参数 9 的 有 偏 估 
计量 ， 但 是 lim E(O)=0， 则 称 6 为 9 的 渐 近 无 偏 估计 。 
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下 面 ， 不 加 证 明 地 列举 出 关于 无 偏 性 的 几 个 重要 结论 。 
1) 无 论 变量 万 服从 何 种 分 布 ， 样 本 的 大 阶 原点 矩 入 = 二 》 Xf(G =12…, 丰 是 变量 光 的 


| 


上 阶 原点 矩 ECX4) 的 无 偏 估计 。 自 然 ， 志 是 ECX) 的 无 偏 估计 。 
2) 无 论 变 量 忒 服从 何 种 分 布 ， 样 本 《修正 ) 方差 52 = -上 > (X - 总? 是 变量 萎 的 广 
i=1 


差 e" 的 无 偏 估计 。 
3) 样本 方差 〈 二 阶 中 心 矩 ) 有 不 是 变量 的 方差 e" 的 无 偏 估计 ， 但 是 lim E(B)=a ， 


所 以 甩 是 ce 的 渐 近 无 偏 估计 。 


4) 样本 标准 差 S- | | 六 (XC - 兄 ? 不 是 变量 X 的 标准 差 c 的 无 偏 估计 ， 但 是 ， 在 变 


量 的 正 态 性 假设 下 ， 可 将 样本 标准 差 修 正 为 6s =C,S，cs 是 ca 的 无 偏 估计 ， 其 中 


1 一 | 
< - [2 人， 由 于 mac = 1， 所 以 8 是 的 天 
"他 

估计 。 

无 偏 性 准则 是 对 估计 量 的 一 个 相互 要 求 。 无 偏 性 估计 的 统计 意义 是 指 估计 量 不 产生 系统 
性 的 偏差 。 例 如 ， 用 样本 均值 忒 作为 变量 均值 六 的 估计 时 ， 由 于 达 是 随机 变量 ， 故 在 一 次 
估计 中 双 的 实现 值 与 其 真 值 之 间 存 在 偏差 闷 - w 。 这 种 偏差 是 随机 的 ， 虽 无 法 说 明 一 次 估计 
所 产生 的 偏差 ， 但 是 对 同一 统计 问题 大 量 重 复 使 用 总 估计 4 时， 实际 产生 的 偏差 闷 - 汉 随机 
地 在 0 的 周围 波动 ， 不 会 产生 系统 的 元 偏 大 于 〈 小 于 ) 4w 的 情况 。 

渐 近 无 偏 是 指 估计 量 存在 系统 性 的 偏差 ， 但 是 这 种 系统 性 偏差 随 着 样本 容量 的 增加 而 趋 
向 于 消失 。 

2. 均 方 误差 准则 

如 果 在 样本 容量 靖 相同 的 情况 下 ，6 的 观察 值 较 饼 的 观察 值 更 集中 在 真 值 9 的 附近 ， 则 
认为 用 和 对 9 进行 的 估计 优 于 用 名 对 9 进行 的 估计 。 

定义 4-4 ( 均 方 误差 准则 ) 设 6= 6(0xY, 冯 …, 蕊 ) 是 变量 世 的 未 知 的 一 维 参数 0 的 估 
计量 ， 称 MSE6 = E(6- 0)2 为 估计 量 6 的 均 方 误差 。 对 于 参数 0 的 任意 两 个 估计 量 @ 和 饭 ， 
若 MSE6 < MSEb ， 且 在 参数 空间 中 至 少 有 一 个 山 ， 使 不 等 式 中 的 “<” 严 格 成 立 ， 则 称 在 
均 方 误差 意义 下 及 是 优 于 饭 的 估计 。 

定理 4-1: ( 均 方 误差 的 分 解 定理 ) MSE6 = ar(O)+[E(O)- 呈 

事实 上 

MSEO= FE[(6-0)2]=EI6-EOD+EO)-25] 
=EI6-E(O7]+2E[(6- ELE(CO)-O]+LE(O)- 引 

由 于 








E[(O-E(O))(E(O)-6]=0 


所 以 
MSE6=Far( 人 +[E(O)- 中 

若 6 是 9 的 无 偏 估计 ， 则 MSE6 = rar(O) 。 

-个 参数 往往 有 不 止 一 个 无 偏 估 计 。 由 均 方 误差 的 分 解 定理 不 难 理解 ， 无 偏 估计 以 方差 
小 者 为 好 。 

定义 4-5〈 最 小 方差 无 偏 估计 ) 设 信 (X ,X,，,X ) 是 变量 兰 的 未 知 参数 9 的 一 个 估计 
量 ， 若 0 满足 : 

1) BE(6)=9， 即 信 为 g 的 无 偏 估计 。 

2) or(O) 和 or( 信 ，6, 呈 ,万 ) 是 9 的 任意 一 个 无 偏 估计 ， 则 称 钙 为 的 最 小 
方差 无 偏 估计 《也 称 最 佳 无 偏 估计 )。 

请 注意 下 面 几 个 关于 最 小 方差 无 偏 估计 的 结论 : 

1) 最 小 方差 无 偏 估 计 可 能 存在 ， 也 可 能 不 存在 。 

2) 对 于 正 态 变量 币 样 本 均值 芝 和 样本 方差 8 是 w 和 ez 的 最 小 方差 无 僵 估 计 。 

3) 极 大 似 然 估计 往往 是 均 方 误差 最 小 的 估计 。 

均 方 误差 准则 是 最 为 常用 的 估计 量 性 能 评价 准则 ， 可 以 这 样 理 解 它 的 统计 意义 ; 设 6 为 
2 的 一 个 估计 ， 由 于 估计 量 是 随机 变量 ， 故 在 一 次 估计 中 6 的 实现 值 与 其 真 值 之 间 存 在 偏差 
6-69 。 一 般 希望 这 种 偏差 尽 可 能 小 ， 但 是 由 于 偏差 是 随机 变量 ， 因 此 ， 不 能 根据 一 次 估计 
时 偏差 6- 6 的 大 小 来 判断 估计 的 优 劣 ， 而 应 根据 对 同一 个 参数 9 用 同一 个 估计 量 全 进行 的 
多 次 估计 的 “平均 偏差 ”来 判断 。 为 避免 求 平 均 偏差 时 6-6 的 正 负 值 相 互 抵消 ， 使 用 
(6- 外) 表示 一 次 估计 中 的 〈 平 方 ) 误差 。 于 是 ，MSE6 < MSEE 表明 多 次 用 估计 所 和 所 去 
估计 20 ，6 的 观察 值 较 饭 的 观察 值 更 密集 在 真 值 g 的 附近 。 换 名 话说 ， 均 方 误差 准则 说 明 ， 
当 使 用 不 同 的 估计 量 生 和 饭 去 估计 2 时 ， 其 均 方 误差 越 小 ， 估 计 的 效果 越 好 ;， 反 之 ， 均 方 误 
差 越 大 ， 估 计 的 效果 越 差 。 

3. 相合 性 准则 

无 偏 性 准则 和 均 方 误差 准则 是 在 样本 容量 岂 固定 的 情形 下 讲解 估计 量 优 劣 的 。 设 变量 
区 ~F(z) ， 羽 (xz) 为 样本 的 经 验 分 布 函数 ， 由 Tesko 定理 

pm sup 及 @-zal=o-， 

当 样 本 容量 另 趋 向 于 无 穷 时 ， 样 本 的 经 验 分 布 函数 以 概率 1 一 致 收敛 于 变量 的 分 布 函数 。 也 
就 是 说 ， 当 样本 容量 ”趋向 于 无 穷 时 ， 样 本 中 包含 的 关于 变量 分 布 的 信息 不 断 增加 ， 以 致 充 
分 到 可 以 将 变量 分 布 刻画 到 任意 精确 的 程度 。 因 此 ， 有 理由 要 求 一 个 “好 的 ”估计 量 ， 当 样 
本 容量 趋 向 于 无 穷 时 ， 在 一 定 的 数学 意义 下 收敛 于 被 估 参 数 。 

定义 4-6〈 相 合 估计 ) 设 6 刀 ,于 大) 为 参数 9 的 估计 量 ， 若 对 任意 的 Ec>0， 有 

外? 素 - 外 4-。 
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而 且 这 对 4 的 一 切 可 能 取 的 值 都 成 立 ， 则 称 6 是 参数 0 的 一 个 相合 估计 。 

相合 性 准则 是 对 一 个 估计 量 最 基本 的 要 求 。 它 说 明 ， 随 着 样本 容量 的 增 大 ， 一 个 “好 
的 ”估计 量 6 应 该 越 来 越 靠近 参数 0 的 真 值 ， 使 绝对 偏差 |- 可 较 大 的 概率 越 来 越 小 。 如 果 
一 个 估计 量 没有 相合 性 ， 那 么 不 论 样本 取 多 大 ， 也 不 可 能 把 未 知 参数 估计 到 预定 的 精度 。 这 
种 估计 量 显然 是 不 可 取 的 。 

下 面 ， 不 加 证 明 地 列举 出 关于 相合 估计 的 几 个 重要 结论 。 

1) 相合 估计 具有 不 变性 。 当 外 , 公 ，…, 咸 分 别 是 6,&,…,6: 的 相合 估计 时 ， 若 8(6,@,， 
…6,) 为 连续 函数 ， 则 g(6,6,…,B) 是 g(,6,…,6,) 的 相合 估计 。 


2) 样本 的 阶 原点 矩 入 = 上 》 X' 是 变量 X 的 上 阶 原 点 矩 BCX4 的 相合 估计 ， 故 样本 
| 
均值 闷 是 变量 均值 扩 的 相合 估计 。 
3) 样本 的 二 阶 中 心 矩 及 = 上 上》 (X - 郊 )7 是 变量 万 的 方差 oz 的 相合 估计 。 
i=|1 


4) 样本 方差 3= -> (%- 交 ? 是 变量 的 方差 oz 的 相合 估计 ， 样 木 标准 关 
i=| 


5- 上 六 (xc - 7 是 变量 的 标准 差 e 的 相合 估计 。 
1 一 1 全 


5) 事件 发 生 的 频率 是 其 概率 的 相合 估计 。 
6) 极 大 似 然 估计 量 往往 具有 相合 性 。 


4.4 区 闻 估 计 


点 估计 给 出 了 总 体 参 数 9 的 估计 值 6ox,e,…,x,) ， 虽 然 简单 明确 ， 但 由 于 它 是 6 的 一 
个 近似 值 ， 所 以 与 9 总 有 偏差 。 在 点 估计 中 既 没 有 反映 近似 值 的 精确 度 ， 又 不 知道 它 的 偏差 
范围 ， 这 是 点 估计 的 缺陷 。 因 此 需要 寻求 另 一 种 方法 ， 和 希望 这 种 方法 能 估计 出 一 个 范围 ， 并 
知道 这 个 范围 包含 参数 真 值 的 可 信和 度 。 这 种 形式 的 估计 称 为 区 间 估 计 。 


区 下 区 间 估 计 的 概念 | 

1. 区 间 估 计 的 含义 

区 间 估 计 就 是 根据 样本 来 确定 统计 量 2(X , 克 ) 和 60, 半 , 大 )， 使 

PE 有)<O<5()=1=-a (4-1) 

其 中 ，(@2,6) 为 2 的 置信 区 间 ，1- c 为 此 置信 区 间 的 置信 水 平 ，2 和 2 分 别 为 置信 下 限 和 置 
信 上 上限。 

显然 ， 置 信 区 间 是 一 个 随机 区 间 ， 式 〈4-1) 的 含义 是 : 若 反复 抽样 多 次 《每 次 取样 本 
容量 都 是 na)， 在 每 次 取样 下 ， 对 样本 的 观察 值 ao…x ， 就 得 到 一 个 区 间 
(EN 站 和 )，00 克 种) )， 每 个 这 样 的 区 间 要 么 包含 6 的 真 值 ， 要 么 不 包含 2 的 








真 值 。 按 伯 努 利 大 数 定理 ， 在 这 样 多 的 区 间 中 ， 大 约 有 100(1- ow)% 的 区 间 包 含 未 知 参 数 
8 ， 而 不 包含 6 的 区 间 约 占 100x %。 例 如 ， 若 ec =0.01， 反 复 抽 样 1000 次 ， 则 得 到 的 1000 
个 区 间 中 不 包含 2 真 值 的 约 有 10 个 。 通 常 e 给 得 较 小 ， 这 样式 (4-1) 的 概率 就 较 大 。 因 
此 ， 置 信 区 间 的 长 度 的 平均 BE(6 -9) 表 达 了 区 间 估 计 的 精确 性 ， 置 信 水 平 1- cx 表达 了 区 间 
估计 的 可 靠 性 ， 它 是 区 间 估 计 的 可 靠 概 率 ， 而 显著 性 水 平 c 表达 了 区 间 估 计 的 不 可 靠 概 率 。 

置信 水 平 1- c 一 般 要 根据 具体 问题 的 要 求 来 选 定 ， 并 要 注意 : cx 越 小 ，1- c 越 大 ， 即 
区 间 (2 -9) 包含 2 真 值 的 可 信 度 越 大 ， 但 区 间 也 越 长 ， 即 估计 的 精确 度 越 差 ， 反之， 提高 估 
计 的 精确 度 则 会 增 大 误 判 风险 wc ， 即 (96 -9) 不 包含 6 真 值 的 概率 会 增 大 。 从 后 面 推出 的 置 
言 区 间 公 式 可 看 出 ， 若 其 他 条 件 不 变 ， 增 大 样本 容量 mw， 可 以 缩短 置信 区 间 的 长 度 ， 从 而 提 
高 精度 ， 但 增 大 样本 容量 往往 不 现实 。 因 此 ， 通 常 是 根据 不 同类 型 的 问题 ， 先 确定 一 个 较 大 
的 置信 水 平 1- gc ， 在 这 一 前 提 下 ， 寻 找 精 度 尽 可 能 高 的 区 间 估 计 。 如 果 对 c =0.05， 有 
元- 二 一 0 
CT 


<1.96 ,=0.95 ， 忆 1-1.75 < <2.33* = 0.95 


vn vVn 
比较 两 个 置信 区 间 [7 区 or 部 am 和 [7 和 + 到 aa] ， 前 者 的 区 间 
长 度 2x0 王 = 392 斑 比 后 者 的 区 间 长 度 (xu +zai ) 歼 = 408 挛 短 ， 置 信 区 间 越 短 表 
示 估 计 的 精度 越 高 。 由 经 验 知 ， 当 靖 固 定时 ， 在 给 定 的 1-x 下 ， 对 称 区 间 的 长 度 最 短 。 
2.， 基本 思想 
对 于 给 定 值 wx(0<w<1D ， 为 得 到 满足 P{@6 <g< 颖 =1-c 的 统计 量 &X, 克基) 和 
6(8, 和 ,和 刀 )， 将 随机 区 间 (2,5) 包含 6 的 概率 P{E <9< 引 =1-c ， 转 化 成 某 随机 变量 
环 ( 富 8) 落 在 区 间 (c,p) 上 的 概率 
Pla< 歼 ( 丰 XIO)< 妇 =1-C 
然后 通过 解 不 等 式 a < 球 ( 避 ,和 大 ;6)< 得 到 
8 )<O<6(1 人, 克 ) 
为 实现 这 个 目的 ， 所 要 找 的 函数 丈 ( 富 ,于 ， 和 ,和 ;9) 必须 满足 两 个 条 件 ; 
1) 仅 是 样本 闷 , 刀 , 藉 , 和 待 估计 参数 9 的 函数 ， 而 不 再 含有 其 他 未 知 参 数 。 
2) (a,b) 必须 是 确定 的 。 为 此 ， 要 求 球 ( 国 ,和 克 ;9) 的 分 布 已 知 。 
3. 其 他 方法 
按 上 述 分 析 思 路 ， 归 纳 出 求 未 知 参数 9 的 置信 区 间 的 一 般 步 骤 如 下 : 
1) 选择 一 个 函数 太 ( 和 ,和 ,天 ;9) ， 它 仅 是 样本 ( 富 , 半 ,大 ) 和 6 的 函数 ， 而 不 再 
含有 其 他 未 知 参数 ， 且 其 分 布 已 知 〈( 称 球 ( 避 , 友 …, 孔 ;9) 为 统计 量 )。 
2) 对 给 定 的 置信 水 平 1- c ， 确 定常 数 mp ， 使 得 
Pla< 歼 (TD 9)< 人 =1 一 c 
3) 由 不 等 式 ga< 球 ( 习 , 和, 筷 ;9)< 得 到 的 等 价 不 等 式 


忆 4 一 1.96 < 
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EN 和)<O<60 7 人) 
其 中 ，g00 和) 和 500, 和 ,和 ) 都 是 统计 量 ， 那 么 (8.5) 就 是 的 置信 水 平 1-c 
的 置信 区 间 。 

【 例 4-16】 从 一 批 灯泡 中 随机 抽取 5 只 做 寿命 试验 ， 测 得 寿命 〈 单 位: h) 如 下 : 
1050, 1100, 1120, 1250, 1280。 设 灯泡 寿命 服从 正 态 分 布 。 试 在 0.95 置信 水 平 下 估计 灯泡 的 
平均 寿命 。 

分 析 : 设 届 表示 灯泡 寿命 ， 依 题 意 知 半 ~ Na2) ， 则 灯泡 的 平均 寿命 为 B(X)=A。 
因此 本 题 的 实质 是 估计 正 态 分 布 参数 wk， 但 方差 oj 未知。 于是， 参数 4 的 估计 量 选用 样本 


均值 亏 ， 统计 量 选用 了 = 过 --， 对 寿命 问题 ， 通 常 只 关心 寿命 下 限 ， 故 相应 的 下 
于 


侧 区 间 估 计 的 准则 为 Ptw> 应 }>1-w ， 其 中 置信 F 限 应 =X-4oO-D 玉 (注意 : 单 侧 
于 








估计 时 ， 显 著 性 水 平 c 不 再 等 分 配置 在 双 侧 尾部 ， 而 是 全 部 置 于 所 关注 的 一 侧 )。 
其 实现 的 MATLAB 程序 代码 如 下 : 
>> clear djj; 
x=[1050,1100,1120,1250,1280]; 
N=length(x); 
muEST=mean(X) 
muLOWER=muEST-tinv(0.95,N-1)*sqrt(var(x)XVMN) 
运行 程序 ， 输 出 如 下 : 


ImUEST = 1160 
muLOWER = 1.0649e+003 


计算 结果 表明 ， 这 批 灯泡 的 平均 寿命 约 为 1160h， 以 0.95 的 概率 保证 这 批 灯泡 的 平均 寿 
命 不 低 于 1065h。 

【 例 4-17】 引力 常数 的 测定 值 蕊 ~ Na) ， 今 分 别 使 用 金 球 和 铂 球 进行 实验 测定 。 

1) 用 金 球 测定 ， 观 察 值 为 6.683, 6.681, 6.676, 6.678, 6.679, 6.672。 

2) 用 铂 球 测 定 ， 观 察 值 为 6.661, 6.661, 6.667, 6.667, 6.664。 

试 针对 1)、2) 两 种 情况 分 别 对 引力 常数 测定 值 的 均值 和 标准 差 进行 估计 《置信 水 平 为 
0.9)。 

分 析 : 此 问题 可 依 正 态 变量 分 布 参数 的 小 样本 估计 方法 ， 对 测定 值 均值 的 估计 选 估计 量 


总 和 统计 量 和 = < 7 ~xn-D， 置 信 区 间 为 





1 四 D- 产 , + DO]) 


日 
Vm Vn 
对 测定 值 标准 差 的 估计 选 估计 量 8 和 枢 轴 量 z2 = 全- 旺 -- z2(n-D) ， 置 信 区 间 为 
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然后 ， 依 上 述 算法 组 织 MATLAB 命令 进行 数据 处 理 ， 这 里 用 mle 函数 进行 数据 处 理 。 
其 实现 的 MATLAB 程序 代码 如 下 : 


>> clear al|l; 

x=[6.683 6.681 6.676 6.678 6.679 6.672]; 

y=[6.661 6.661 6.667 6.667 6.664]; 
[phat,pci]=mle(xyalpha',0.1) “% 人 金 球 测 定 的 估计 
[PHAT,PCIH]=mle(yvalpha',0.1)》 % 铀 球 测定 的 估计 


运行 程序 ， 输 出 如 下 : 


phat = 
0.6782 0.0035 
pci = 
6.6750 0.0026 
6.6813 0.0081 


PHAT = 
6.6640 0.0027 
PCI = 
0.6611 0.0019 
6.6669 0.0071 


计算 结果 表明 ， 金 球 测定 的 4w 的 估计 值 为 6.6782， 置 信 区 间 为 [6.6750，6.6813];，c 的 佑 
计 值 为 0.0035， 置 信 区 间 为 [0.0026，0.0081]。 铂 球 测定 的 妈 的 估计 值 为 6.6640， 置 信 区 间 为 
[6.6611, 6.6669]， ez 的 估计 值 为 0.0027， 置 信 区 间 为 [0.0019, 0.0071] 。 


3 单 正 态 总 体 参数 的 区 间 估 计 


设 总 体 匡 ~ No) ， 六 ,和 友 , 关 是 大 的 样本 ，1- ca 为 给 定 的 署 信 水 平 ， 下 面 来 确 
定 总 体 均值 4 和 总 体 方差 的 置信 区 间 。 

1 单 正 态 总 体 均值 的 区 间 估 计 

(1) ec 已 知 时 ， 均 值 w 的 置信 区 间 

以 样本 均值 池 作为 刀 的 一 个 点 估计 ， 由 正 态 公 \ 式 知 


由 正 态 分 布 的 分 位 点 知 
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站 位 一 <zr =1-a 
| 到 
Vm 
或 
P 7- 息 <w<8+ 侣 |=-1-a 
| Vn vVn 
故 
7- 冯 必 + 全 ] (4-2) 
| Vs  vVns 


为 上 的 置信 水 平 1- ac 的 置信 区 间 。 
【 例 4-18】 一 车 间 生 产 的 滚珠 直径 服从 正 态 分 布 ， 从 某 天 的 产品 里 随机 抽取 6 个 ， 测 
得 直径 为 〈 单 位 : mm) 14.6，15.1，14.9，14.8，15.2，15.1。 若 该 天 产品 直径 的 方差 


co"” =0.06 ， 求 该 天 生产 的 滚珠 的 平均 直径 Aw 的 置信 区 间 (ww =0.01; cx =0.05)。 
解 : 因为 只 =0.06 ， 由 式 (4-2) 知 扩 的 1- 的 回信 区 问 为 | 元 -- 介 几 , 允 + 各 上 
当 w=0.01 时 ， 查 正 态 分 布 表 得 wp =2.58 ， 计 算得 坏 =14.95 ， 将 蕊 =14.95 ， 
o“=0.06 ，7m=6，zxoo =2.58 代 入 上 述 置 信 区 间 ， 得 w 的 99% 的 置信 区 间 为 


[4ss 一 2.58， 1 06.1495 十 2.58， 降 | = (14.69,15.21) 


当 c = 0.05 时 ， 查 正 态 分 布 表 得 we =1.96 ， 求 得 六 的 95% 的 置信 区 间 为 〈14.75, 15.15 )。 

(2) o" 未 知 时 ， 均 值 w 的 置信 区 间 

这 时 ， 自 然 地 会 想到 以 样本 标准 差 8 代替 总 体 均 方差 c ， 由 正 态 公式 知 选取 统计 量 

丈 - 
S 





芭 ~t(n-1 


Vn 


Pol<so- 中 -< 


查 上 分 布 表 ， 得 如 (2-D， 解 不 等 式 得 部 - 产 必 oo- D<w< 了 + 方 fa(a-D ， 即 4 的 置信 
2 


了 三 


对 给 定 的 数 w ， 由 


水 平 1- c 的 置信 区 间 为 


[7 这 (zz- DZ+ 广 全 )) 
简 记 为 








+ 了 (7 一 《4-3) 


有 入 


在 实际 问题 中 ， 很 难 找到 总 体 均值 未 知 ， 但 方差 已 知 的 情况 。 通 常情 况 下 ， 均 值 和 方差 
都 要 通过 样本 进行 估计 ， 故 式 〈4-3) 比 式 〈4-2) 更 实用 。 

【 例 4-19】 水 体 中 的 污水 和 工业 污染 会 通过 减少 水 中 被 洲 解 的 氧气 而 影响 水 体 的 水 质 ， 
生物 的 生长 与 生存 依赖 于 氧气 。 两 个 月 内 ， 从 污水 处 理 厂 下 游 Imile (lmile=1609.344m)》 处 的 
一 条 小 河 里 取 8 份 水 样 。 检 测 水 样 里 溶解 的 氧气 含量 ， 数 据 见 表 4-6。 


表 4-6 水 样 中 的 氧气 含量 
水 样 / 份 





氢气 含 最 x 10 有 4 


根据 最 近 的 研究 ， 为 了 保证 鱼 的 生存 ， 水 中 溶解 的 氧气 的 平均 体积 含量 需 达 到 
5x 10“， 即 试 求 两 个 月 期 间 平 均 氧 气 含量 的 95% 的 置信 区 间 《〈 假 定 样本 来 自 正 态 总 体 )。 


解 : o 未 知 ， 所 以 由 式 (4-3) 知 和 4 的 置信 水 平 1- c 的 轩 信 区 癌 为 [元 - 呈 eor- )， 


7+ 间 so- 中 
1 2 

由 已 知 m=8，1-xw=0.95， 查 附录 C 得 mos(7)= 2.365， 由 样本 计算 得 各 = 4.95， 
S=0.45， 故 4 的 置信 水 平 1- cx 的 轻信 区 间 为 〈4.78, 5.12 )。 

2.， 单 正 态 总 体 方差 的 区 间 估 计 

设 总 体 基 ~ No ) ， 忆 ,和 ,各 是 大 的 样本 ， 求 ca: 的 置信 水 平 1- ec 的 吐 信 区 间 。 
由 和 分 布 式 知 选取 统计 量 


2 
-0 zz- 


对 给 定 的 w ， 取 万 分 布 分 位 点 加 ( 阅 和 和 ec(D)， 使 
2 2 


2 
230-D< 人 各 <2o- 吕 -is 
2 2 


从 而 得 到 e” 的 置信 水 平 1- c 的 置信 区 间 为 


(2-DS2 (2 一 DS? 
加 
2 2 
【 例 4-20】 从 自动 机 床 加 工 的 同类 零件 中 随机 地 抽取 10 件 ， 测 得 其 长 度 为 〈 单 位 : mmy) 
12.15，12.12，12.10，12.28，12.09，12.16，12.03，12.01，12.06，12.11。 假 定 样本 来 自 正 
态 总 体 ， 试 求 方差 o" 的 93% 的 置信 区 间 。 
解 : 已 知 w =0.05， 查 附录 B 得 
2 -D=Xoos(9)=2.7， 7 (az-D= Moos(9)=19.023 
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又 由 已 知 数据 算得 8 = 0.076 ， 于 是 


本 2 2 二 2 2 
=-DS -9x0076- -0003，-@-DS -9x0076- -0019 
好 (a-D 19.023 (2-]) 2.7 

2 2 








(2-1DS2 (2-1DS? 


以 ， 方 差 o 的 95% 的 轻信 区 间 是 
所 以 oo 
2 2 


区 台 单 侧 置信 区 间 | 


在 上 面 的 内 容 中 ， 对 于 未 知 参数 9 ， 给 出 两 个 统计 量 和 5 ， 得 到 6 的 置信 区 间 为 
(2,5) 的 形式 。 在 某 些 实际 应 用 中 ， 常 常 只 关心 参数 的 上 限 或 下 限 。 例 如 ， 对 于 设备 、 元 件 
的 寿命 来 说 ， 只 关心 平均 寿命 g 至 少 是 多 少 〈 6 的 下 限 )。 与 之 相反 ， 在 考虑 化 学 药品 中 杂 
质 含量 时 ， 关 心 的 却 是 平均 杂质 含量 9' 最 多 是 多 少 〈l' 的 上 限 )。 这 就 引出 了 单 侧 置信 区 间 
的 概念 。 

对 于 给 定 值 w(0<c<D) ， 若 由 样本 冲 ,%，…X 确定 的 统计 量 90 和 ,和 ) 满足 对 
任意 9 有 


《0.003, 0.019 )。 


PIO> 引 =1-c 
则 称 随机 区 间 (80 克 )+oo) 是 9 的 置信 水 平 为 1-e 的 下 侧 置 信 区 间 ， 称 
2 大力 ) 是 置信 水 平 为 1- c 的 单 侧 置信 下 限 。 
若 统计 量 2(8 , 友 ，… 艺 ) 满 足 对 任意 2 有 
PtfO<5=1-cu 
则 称 随 机 区 间 (-oo5(X 区, 天) 是 9 的 置信 水 平 为 1-e 的 上 侧 置信 区 间 ， 称 
6(X, 妈 , 洛 ,) 是 置信 水 平 为 1- c 的 单 侧 置 信 上 限 。 

【 例 4-21】 已 知 某 地 区 农户 人 均 生 产 蔬菜 量 下 ~ N(a2) ， 现 随机 抽取 9 户 ， 得 人 均 
生产 的 蔬菜 量 单位: kg) 为 73，143，156，340，400，287，256，244，249。 问 该 地 区 农 
户 人 均 生 产 蔬菜 最 多 为 多 少 (w =0.05) ? 

解 : 这 里 总 体 方差 未 知 ， 求 均值 的 置信 上 限 。 选 取 统 计量 








7= ~t(a-H 
Vn 
对 给 定 的 w ， 有 
忆 > 上 On-D =1-a 
w 
则 考虑 单 侧 置 信 上 限时 有 


Pw<Z+ 闻 oo- 中 -ie 





强 





容易 得 到 /的 置信 上 限 为 万 = 束 +- 产 (2 -1) 。 


由 样本 算得 天 =239kg，S=101kg， 查 : 分 布 表 得 如 (a-D=mos(8)=1.86， 于 是 ww 的 
95% 的 十 信 上 限 为 万 = 豆 + -六 (~D=239+101x1.86=302。 


V9 
结果 表明 ， 该 地 区 农户 人 均 生 产 蔬 菜 最 多 是 302kg， 这 一 估计 的 置信 水 平 为 95%。 


4.5 ”概率 分 布 的 统计 特征 


概率 密度 和 累积 分 布 密度 


对 每 一 种 分 布 ， 统 计 工 具 箱 提供 了 计算 给 定 变量 x 的 概率 值 的 函数 ， 其 形式 为 xxxpdf。 
F 面 通过 示例 来 展示 其 用 法 。 

【 例 4-22】 计算 x= 5$0 二 项 式 分 布 的 概率 。 

其 实现 的 MATLAB 程序 代码 如 下 ， 





>> clear al; 
% 设 置 二 项 式 分 布 的 参数 
N=1I00;p=0.5; 
%x 的 值 
X=S0; 
% 计 算 概率 
y=binopdfx,N,p) 
运行 程序 ， 输 出 如 下 : 
y= 0.0796 
假设 /是 随机 变量 蕊 的 概率 密度 函数 ， 则 其 相应 的 累积 分 布 函数 定义 为 ; 
FOOD=PIK< 寻 = | GDd 


统计 工具 箱 中 提供 了 计算 不 同 累积 分 布 的 函数 ， 其 形式 为 xxcdf。 下 面 举例 来 说 明 这 类 
expcdf 函数 的 调用 格式 如 下 ; 
P=expcdfX, MU) 

expcdf 函数 用 于 计算 指数 累积 分 布 。 其 中 ，AMU 是 指数 分 布 的 参数 ; 尸 为 返回 的 概率 累 
积分 布 。 

其 相关 函数 有 : cdf expfit expinv, exppdf, exprnd, expstat。 

【 例 4-23】 计算 指数 分 布 随机 变量 小 于 均值 的 概率 。 

其 实现 的 MATLAB 程序 代码 如 下 


>> clear all; 
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% 指 数 分 布 的 参数 

mu=10; 

% 变 量 

X=mu; 

% 计 算 累 积 概率 

p=expcdfxmu) 
运行 程序 ， 输 出 如 下 : 


p= 0.6321 





概率 分 布 的 均值 和 方差 


通过 前 面 的 学 习 ， 知 道 在 数理 统计 中 ， 随 机 变量 常见 的 数字 特征 包括 均值 和 方差 ， 而 统 


计 工 具 箱 中 提供 了 计算 不 同 分 布 均值 和 方差 的 函数 ， 其 形式 为 xxxstat， 而 且 还 提供 了 显示 均 
值 及 其 置信 区 间 位 置 的 grpstats 函数 。 下 面 进行 举例 说 明 。 

(1) wblstat 函数 

其 调用 格式 如 下 : 


[M,V]=wblstat(A,B) 


wblstat 函数 用 于 计算 Weibull 分 布 的 均值 和 方差 。 其 中 ，4， 妃 是 Weibull 分 布 的 参数 ; 
1 为 返回 均值 ; 天 为 返回 方差 。 

其 相关 困 数 有 : wblcdf, wblfit wblinv wbllike， wblpdf wblplot wblrd。 

(2) grpstats 函数 

其 调用 格式 如 下 : 


meceans=grpstats(X, group) 
[means, serm counts, name]=grpstats(X, groud) 
grpstats(x,group,alpha) 


grpstats 函数 用 于 计算 每 组 的 统计 量 。 其 中 ，X 是 分 析 的 抢 阵 ， 每 一 列 是 一 组 数据 ; 
group 是 组 的 索引 ;alppna 是 置信 水 平 ; means 返回 每 一 列 的 均值 ， 无 输出 参数 时 ， 显 示 每 个 
均值 100(1- 四 的 置信 区 间 。 

【 例 4-24】 计算 Weibull 分 布 的 均值 和 方差 。 

其 实现 的 MATLAB 程序 代码 如 下 : 


>> clear all; 

% 设 置 Weibull 分 布 的 参数 
a=0.4;b=3; 

% 计 算 均 值 和 方差 
[M,V]F=wblstat(a,b) 

% 产 生 两 组 数据 

len=30; 
group=unidmrmd(2,len,1); 
true_mean=1:2; 
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true_mean=true_ mean(ones(len,1),:); 

y=wblrnd(true_mean,1); 

% 显 示 置 信 水 平 

alpha0=0.05; 

means=grpstats(y,group,alpha0) 
运行 程序 ， 输 出 如 下 : 


M = 0.3572 

V= 0.0169 

means 二 
0.6358 1.1390 
1.2771 1.2482 


两 组 数据 的 均值 及 置信 区 间 位 置 如 图 4-16 所 示 。 
各 组 的 均值 及 填 信 区 间 位 置 图 
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图 4-16 均值 及 置信 区 间 位 置 图 
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第 5 章 统计 检验 方法 一 一 假设 检验 电 


统计 推断 的 另 一 类 重要 问题 是 假设 检验 问题 。 先 对 总 体 的 某 个 未 知 参 数 或 总 体 的 分 布 形 
式 作 某 种 假设 ， 然 后 由 所 抽取 的 样本 提供 的 信息 ， 构 造 合适 的 统计 量 ， 对 所 提出 的 假设 进行 
检验 ， 以 作出 统计 判断 。 是 接受 假设 偿 是 拒绝 假设 ， 这 类 统计 推断 问题 称 为 假设 检验 问题 。 


5.1 假设 检验 概述 


在 统计 应 用 中 会 遇 到 如 下 类 型 的 问题 。 

【 例 5-1】 一 台 自 动车 床 在 正常 工作 的 情况 下 加 工 出 的 零件 直径 服从 正 态 分 布 ， 考 件 规 
格 是 : 标准 直径 为 Sm， 人 允许 的 最 大 加 工 误 益 为 0.2cm。 某 日 开工 后 ， 技 术 人 员 进 行 例 行 检 
查 ， 以 判断 该 车 床 工作 是 否 止 常 。 

这 是 一 个 生产 设备 运行 稳定 性 的 监督 问题 。 在 工业 和 牛 产 中 监督 设备 的 运行 稳定 性 ， 通 常 
的 做 法 如 下 : 

GD 进行 例 行 监督 检查 。 此 时 ， 往 往 假 定 设备 的 工作 是 正常 的 ， 然 后 每 隔 一 段 时 间 随 机 
抽查 几 个 产品 的 控制 指标 〈 如 零件 直径 )， 如 果 没 有 发 现 异 常情 况 ， 就 认为 生产 是 正常 的 。 
如 果 发 现 产品 的 质量 有 大 的 变动 ， 超 过 了 人 允许 的 限度 ， 则 认为 生产 不 正常 而 需要 停机 检修 。 
用 统计 语言 描述 就 是 ， 假 设 变量 的 分 布 形态 已 知 ， 判 断 关 于 分 布 参数 的 一 些 已 知 信息 是 否 为 
真 ， 即 进行 变量 分 布 参数 的 假设 检验 。 

@ 在 生产 环境 发 生变 化 ， 如 设备 大 修 或 工艺 改变 等 情况 下 ， 需 要 判断 设备 的 运行 是 否 
符合 正常 状态 要 求 ， 这 不 仅 涉及 @D 中 所 述 的 参数 检验 问题 ， 而 且 首先 要 判断 产品 的 控制 指标 
的 概率 分 布 是 徊 与 要 求 的 一 样 。 用 统计 语言 描述 就 是 ， 对 变量 的 分 布 形态 已 有 先 验 的 知识 ， 
如 变量 曾经 或 者 应 该 服从 正 态 分 布 、 威 布尔 分 布 等 ， 判 断 目前 的 情况 是 否 如 此 。 

假设 检验 是 一 类 重要 的 、 应 用 广泛 的 统计 推断 技术 。 本 节 讲解 假设 检验 的 基本 思想 、 方 
法 和 步骤 等 问题 。 
假设 检验 的 逻辑 

仍 以 例 5-1 中 的 问题 为 例 ， 讲 解 假 设 检 验 的 基本 思想 和 方法 。 假 设 这 台 自 动车 床 的 工作 
是 正常 的 ， 零 件 直径 服从 正 态 分 布 ， 进 行 例 行 的 质量 检查 。 假 定 从 一 天 的 产品 中 抽查 50 
个 ， 分 别 测量 直径 ， 算 得 孝 =4.8cm。 据 此 来 推断 这 人 台 自 动车 床 当 天 的 生产 是 否 正 常 。 

这 就 是 变量 分 布 参数 的 假设 检验 问题 。 

在 假设 检验 问题 的 分 析 与 推理 中 ， 首 先 要 明确 待 检验 的 命题 凡 ， 称 为 统计 假设 〈 也 叫 
原 假设 或 零 假设 ， 称 与 之 对 立 的 假设 已 为 备 择 假设 )， 然 后 由 抽样 结果 来 检查 这 个 假设 是 否 
可 信 、 是 否 能 够 成 立 ， 从 而 做 出 拒绝 还 是 接受 这 个 假设 的 决策 。 

在 例 5-1 中 ， 一 天 中 生产 的 零件 的 平均 直径 是 一 个 随机 变量 妃 已 知 世 服从 正 态 分 布 。 








现在 想 知道 ， 这 一 天 生产 的 所 有 零件 的 直径 E(X) = 妈 是 否 符合 标准 要 求 ， 即 w= 5 是 否 成 

立 。 如 果 A= 5， 说 明生 产 正常 ， 否则， 说 明 牛 产 不 正常。 

于 是 ， 设 原 假设 ， AN=5:， 备 择 假设 贡 : wz*5。 

。 怎样 来 判定 太 是 否 为 真 呢 ? 由 于 旦 ~ NUwaz)， 即 凤 是 零件 直径 的 期 望 值 ， 而 样本 均 
值 闷 是 妈 的 性 能 优良 的 估计 量 ，o 是 否 为 真 的 判断 可 以 通过 定 基 分 析 二 者 的 信息 差异 得 
到 。 现 在 闷 =4.8， 而 要 求 凡 = 5 ， 其 间 存 在 差异 总-w= -0.2 ， 于 是 如 是 否 为 真 取决 于 这 个 
差异 的 性 质 。 

@ 差异 可 能 是 出 随机 因素 引起 的 ， 称 为 抽样 误差 或 随机 误差 ， 这 种 误差 反映 偶然 的 、 
首 本 质 的 因素 引起 的 随机 波动 。 

@ 差异 不 是 出 随机 因素 引起 的 ， 它 反映 事物 的 本 质 差别 〈 反 映 这 天 生产 的 零件 的 平均 
直径 同 标准 直径 不 同 )， 称 为 系统 误差。 

那么 ， 这 个 抽样 结果 究竟 是 偶然 性 在 起 作用 ， 还 是 该 天 生产 不 正常 所 造成 的 ? 这 就 需要 
给 出 一 个 量 的 界限 ， 即 给 出 一 个 小 的 正 数 8 。 如 果 | 闷 -可 <5 ， 则 认为 是 随机 性 的 差异 ， 或 
者 用 统计 学 上 的 术语 称 差异 不 够 显著 ;如 果 | 闷 -中 > 5 ， 则 认为 不 是 随机 性 的 差异 ， 或 者 说 
差异 显著 。 

于 是 ， 问 题 转 化 为 如 何 确定 这 个 正 数 5 。 容 易 想到 ， 可 以 采用 区 间 估 计 中 的 大 概率 置信 
准则 

P{ 公 - 放 < 相 >1-c 
来 确定 这 个 量 的 界限 5 。 

但 是 ， 这 里 产生 了 一 个 问题 : 豆 是 一 个 随机 变量 ， 用 郊 的 观测 值 说 明 命题 如 ，w=5 
的 真 假 是 一 种 事实 验证 ， 若 在 一 次 抽样 中 | 歹 - 咱 <6 ， 只 能 增加 入 们 对 命题 夯 的 信心 ， 即 
使 是 100 次 的 验证 都 支持 命题 gf ， 但 是 仍 不 能 令 人 相信 命题 zf 是 真 的 。 

如 果 注 意 到 当天 ~ NU 时 ， 有 区 ~ | 所 全 |， 即 当 大 为 真 时 ， 台 的 观测 值 不 应 
过 于 偏离 4&=5， 即 事件 人 - 放 >5} 应 当 是 一 个 小 概率 事件 ， 不 妨 记 为 

P 亿 - 咱 >5jsc 
称 为 检验 准则 ， 其 中 c 是 一 个 很 小 的 正 数 ， 称 为 显著 性 水 平 。 小 概率 事件 在 一 次 试验 中 基本 
上 不 会 发 生 。 如 果 在 一 次 抽样 中 ， 成 的 样本 观测 值 ze 矿 ， 即 总 的 观测 值 过 于 偏离 4= 5， 
试验 结果 与 前 提 假 设 不 相符 ， 则 使 人 们 不 能 不 怀疑 作为 这 个 小 概率 事件 前 提 的 命 昕 ii, 的 正 
确 性 。 这 里 的 集合 矿 称 为 ii 的 拒绝 域 。 如 果 一 个 概率 很 小 的 事件 在 一 次 试验 中 发 生 了 ， 则 
人 们 认为 命题 in 不 真 的 理由 比 承认 命题 矶 为 真 更 为 充分 。 也 就 是 说 ， 在 假设 检验 问题 中 ， 
采用 伺机 否定 fo 的 思维 逻辑 比 执意 支持 Ar 的 思维 逻辑 更 有 说 服 力 。 

把 伺机 否定 io 的 思维 过 程 中 使 用 的 推理 方法 称 为 概率 反 证 法 ， 它 不 同 于 一 般 的 反 证 
法 。 一 般 的 反 证 法 如 果 在 诛 假设 下 导出 的 结论 自 相 矛 盾 或 与 事实 矛盾 ， 则 完全 绝对 地 推翻 
原 假设 ， 而 概率 反 证 法 的 结论 不 是 绝对 的 ， 只 是 认为 结论 正确 的 把 握 较 大 ， 不 排除 犯错 误 
的 可 能 。 
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假设 检验 推理 方法 是 概率 反 证 法 ， 其 推理 逻辑 是 : 如 果 诛 假设 已, 是 对 的 ， 而 能 够 验证 
已 ,为 真 的 某 个 统计 量 落 入 某 个 约定 的 区 域 玉 是 小 概率 事件 ， 而 小 概率 事件 在 一 次 试验 中 基 
本 上 不 会 发 后。 如 果 该 统计 量 的 一 次 实测 值 落 入 区 域 不 。 也 就 是 说 ， 原 假设 成 立 下 的 小 概率 
事件 在 一 次 试验 中 发 生 了 ， 那 么 就 以 较 充分 的 理论 认为 康 假 设 不 可 信和 而 售 定 它 ， 帮 则 就 不 能 
否定 原 假 设 〈 只 好 接受 它 )。 不 耕 定 原 假 设 并 不 是 原 假 设 一 定 对 ， 而 只 是 说 差异 还 不 够 显 
车， 还 没有 达到 足以 个 定 床 假 设 的 程度 。 
假设 检验 的 步骤 

假设 检验 的 基本 步骤 如 下 。 

第 一 步 ， 提 出 原 假设 忌 及 备 择 假设 万 。 

原 假 设 是 对 问题 的 标准 统计 描述 ， 是 待 验证 的 命题 。 备 择 假设 则 是 原 假 设 的 对 立 命题 ， 
是 否定 点 假设 结论 时 的 统计 描述 。 

例 5-1 中 ， 床 假设 析 : 4=M=5; 备 择 假设 名 : AtA。 

称 这 类 假设 检验 为 双 侧 假设 检验 ， 有 时 还 会 提出 下 述 形 式 的 假设 : 

Zi : A 科 Ai 丰 : WA>U 





或 
上 :AHB WA<A 
称 这 类 假设 检验 为 单 侧 假设 检验 。 

此 外 要 注意 ， 对 于 一 个 实际 问题 ， 原 假设 通常 有 两 种 提 法 ， 即 原 假 设 和 备 择 假设 可 以 互 
换 。 应 该 如 何 提取 原 假设 呢 ? 这 里 给 出 一 个 原则 性 的 建议 : 在 实际 问题 中 ， 往 往 把 系统 早已 
存在 或 样本 信息 明显 支持 的 状态 、 不 宜 轻 易 否 定 的 命题 作为 原 假设 局 ， 或 者 说 把 希望 得 到 
或 反映 系统 新 变化 的 结论 作为 备 择 假设 已 。 

第 二 步 ， 选 取 一 个 适当 的 检验 统计 量 T， 并 写 出 相应 的 检验 准则 。 

如 例 5-1 中 ， 检 验 统计 量 为 莹 ， 检 验 准则 是 人 | 部 -0.|>5j<c。 

在 这 一 环节 应 当 注意 ， 在 忌 , 成 立 的 条 件 下 ， 所 选 定 的 检验 统计 量 7 的 概率 分 布 〈 或 近 
似 分 布 ) 应 当 是 已 知 的 ， 如 例 5-1 中 ， 若 轧 成 立 ， 即 苞 ~N(0.5,0.22) 时 ， 有 
蕊 ~ N(5,0.0008) 。 

拒绝 域 的 临界 值 的 计算 依赖 于 检验 统计 量 的 概率 分 布 。 有 时 为 了 使 于 计算 ， 特 别 是 查 表 
计算 的 情况 下 ， 需 要 对 检验 统计 量 进行 分 布 形态 规范 化 、 标 准 化 或 渐 近 正 态 化 变换 。 如 例 5-1 
由 ， 通常 需要 将 检验 统计 量 中 变换 为 以 = 人 ， 在 二 :ww=5 成 立时 ，U~ N(0.D 。 

第 王 步 ， 给 定 显著 性 水 绊 xc ， 并 求 出 忌 , 的 拒绝 域 刺 。 

如 例 5-1 中 ， 给 定 的 显著 性 水 平 x = 0.05 ， 由 检验 准则 

P 人 -03>5js<a 
可 得 
P{ 人 和 0.5-6+PI >0.5+6} 芭 0.05 








即 


矿 =(-coa]U[2+oo) 
其 中 ，a=0.5-6 ，0=0.5+6 。 通 常用 等 分 配置 显著 性 水 平 的 方法 确定 拒绝 域 的 临界 值 ， 
即 
P{ 苹 入 0.5- 8 相近 0.025，P{>0.5+9 所 0.025 
进而 ， 根 据 蕊 ~ N($,0.0008) ， 计 算 拒 绝 域 的 临界 值 。 
其 实现 的 MATLAB 程序 代码 如 下 : 


>> a=norminvy(0.025,5,0.0008) 
b=norminv(0.975,5,.0.0008) 


运行 程序 ， 输 出 如 下 : 


8 三 4.9984 
b= 5.0016 


即 原 假设 妃 。 的 拒绝 域 为 柬 = (-oo,4.9984]U[5.0016,+eo) 。 

第 四 步 ， 由 样本 计算 出 检验 统计 量 了 的 实测 值 ， 判 断 其 是 徊 治 入 拒绝 域 。 

艾 实 测 值 落 入 拒绝 域 ， 则 认为 差异 显著 而 否定 原 假 设 io ;否则 ， 认 为 差异 不 显著 而 不 
能 否定 原 假设 ， 即 保留 《接受 ) 原 假设 局, 。 

如 例 S-1 中 ， 元 =4.8e 友 ， 故 否定 原 假 设 马 ， 即 认为 这 天 生产 不 正常 ， 需 检修 。 

上 面 作出 的 否定 原 假设 的 判断 ， 判 断 正 确 的 置信 水 平 为 0.95， 判 断 错 误 的 风险 概率 为 
0.05。 


5.1.3 检验 的 P 值 | 

在 假设 检验 问题 中 ， 得 出 结论 的 依据 是 检验 统计 量 7 的 观测 值 ! 是 否 落 入 原 假 设 忆 ,的 
拒绝 域 矿 。 如 果 te 丈 ， 则 拒绝 原 假 设 , ， 和 否则 保留 原 假 设 瓦 , 。 这 种 非 此 即 彼 的 结论 有 一 
个 缺点 ， 即 结论 不 能 反映 由 当前 的 样本 信息 拒绝 或 保留 ) 诛 假设 的 理由 是 否 充分 。 具 体 地 
讲 ， 检 验 统计 量 7 的 观测 值 : 虽然 落 入 拒绝 域 不 ， 但 其 距离 故 的 临界 值 有 多 远 ? 如 例 5-1 
中 ， 了 球 的 左 侧 临界 值 为 4.9984， 检 验 统计 量 X 的 值 为 4.8， 小 于 4.998， 落 入 丈 ， 故 拒绝 原 
假设 豆 , 。 问 题 是 : 依据 4.8<4.998 得 出 结论 ， 理 由 是 否 勉 强 ? 对 此 最 好 有 一 个 数量 上 的 刻 
男 。“ 检 验 的 疡 值 ”能 够 满足 人 们 的 这 种 要 求 。 

定义 5-1 (检验 的 疡 值 ) 设 诛 假设 为 媚 ， 了 是 检验 统计 量 ， 其 观测 值 为 w， 总 , 的 拒绝 
域 为 到 ， 则 称 如 下 定义 的 概率 尸 为 原 假设 忌 , 的 检验 的 疡 值 。 

若 友 ={T7IT>cj， 则 疡 = PIT >il 太 为 真 }。 

若 友 ={TIT 和 ec， 则 忆 = PIT 冬 引 妃 为 真 } 。 

若 矿 = 和 IT 和 c 或 T>c}， 则 

G 当 z 值 较 小 〈 偏 左 取 值 ) 时 ， 疡 =2P(T 和 xi 为 真 } 。 

@@ 当 : 值 较 大 〈 偏 右 取 值 ) 时 ， 疡 =2PT>1!| 厂 为 真 } 。 

在 统计 实践 中 ， 人 们 并 不 事先 指定 显著 性 水 平 w 的 值 ， 而 是 很 方便 地 利用 上 面 定义 的 P 
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值 。 对 于 任意 大 于 值 的 显著 性 水 平 ， 人 们 可 以 拒绝 原 假设 ， 但 不 能 在 任何 小 于 它 的 显著 性 
水 平 下 拒绝 原 假设 。 疡 值 是 利用 样本 数据 能 够 作出 拒绝 原 假设 的 最 小 的 显著 性 水 平 。 

【 例 5-2】 某 人 有 4 枚 不 同 的 硬币 ， 他 怀疑 这 4 枚 硬币 的 均匀 性 不 同 ， 想 通过 抛 闫 硬币 
观察 出 现 正面 的 次 数 来 鉴别 硬币 的 均匀 性 。 于 是 进行 了 掷 币 试验 ，4 枚 硬币 各 抛掷 100 次 ， 
并 记录 了 出 现 正面 的 次 数 ， 结 果 见 表 5-1。 





表 5-1 硬币 正面 次 数 表 
分 析 : 设 在 100 次 抛 搓 中 每 枚 硬币 出 现 正 面 的 次 数 为 沁 ， 每 次 抛掷 出 现 反面 的 概率 分 
别 为 P(i=12,3,4) ， 则 成 ~a00, 忆 ) 。 检 验 的 原 假设 为 
娓 :已 =0.5 (硬币 是 均匀 的 )，i=12,3,4 
在 万 为 真 的 假设 下 ， 即 癌 ~p810005) ， 出 现 正 面 的 平均 次 数 为 
E(X%)=100x0.5=50 。 由 于 实测 出 现 正 面 的 次 数 均 不 小 于 $0， 故 可 作 单 侧 检验 ， 即 各 择 假 
设 为 
万 0:，P > pi=0.53，i=12,3,4 
在 显著 性 水 平 cc 下 ， 检 验 准 则 是 
PLX -50>5)<c 
下 面 ， 利 用 MATLAB 分 别 来 求 鼠 ,的 拒绝 域 和 检验 的 己 值 。 
人 @D 求 拒绝 域 ， 这 里 指定 显著 性 水 平 w =0.05。 由 于 检验 统计 量 服 从 相同 的 分 布 ， 故 对 每 
种 硬币 而 言 ， 原 假设 的 拒绝 域 是 相同 的 。 
其 实现 的 MAILAB 程序 代码 如 下 : 
>> clear'; 
Wiower=binoinv(0.95,100,0.5) “% 求 拒绝 域 的 临界 值 S0+ 8 


运行 程序 ， 输 出 如 下 ; 
Wlower = 58 


@@ 求 对 每 枚 硬币 进行 检验 的 己 值 ， 记 = P{X > 和 } (=12,3,4) 。 
其 实现 的 MATLAB 程序 代码 如 下 : 


>> clear; 
pl1=1-binocdfKS0,100,0.5); 
p2=1-binocdf55,100,0.5); 
p3=1-binocdff60,100,0.5); 
p4=1-binocdft65,100,0.5); 
p=[p1,p2,p3,p4] 


运行 程序 ， 输 出 如 下 : 


p = 





0.4602 0.1356 0.0176 0.0009 


根据 上 述 计算 可 知 ， 在 0.05 显著 性 水 平 下 ， 检 验 认 为 第 一 和 第 二 两 种 硬币 是 均匀 的 ， 
而 第 三 和 第 四 两 种 硬币 不 是 均匀 的 。 

如 果 改 变 显 著 性 水 平 ， 则 需要 重新 计算 拒绝 域 的 临界 值 ， 但 是 利用 检验 的 p 值 进行 决策 
则 不 必 重 新 计算 ， 应 用 起 来 更 为 灵活 方便 。 在 0.05 显著 性 水 平 下 ， 检 验 的 疡 值 表明 不 必 质 疑 
第 -种 厂 币 均匀 而 第 四 种 厂 币 不 均匀 的 结论 。 如 果 严 格 均匀 性 的 标准 ， 即 增 大 显著 性 水 平 
《更 容易 拒绝 原 假 设 )， 如 取 0.15， 则 统计 推断 不 能 认为 第 -种 硬币 是 均匀 的 ， 如 果 放 宽 均 匀 
性 的 标准 ， 即 减 小 显著 性 水 平 〈 不 容易 拒绝 原 假设 )， 如 取 0.01， 则 统计 推断 认为 第 三 种 硬 
币 是 均匀 的 。 

假设 检验 错误 与 势 函数 | 

在 假设 检验 方法 的 应 用 中 ， 必 须 注重 检验 的 结果 是 否 与 实际 情况 吻合 。 换 句 话说， 假设 
检验 是 可 能 犯错 的 。 在 作出 否定 原 假设 的 判断 时 ， 可 能 犯 如 下 两 类 错误 。 

@) 第 一 类 错误 。 瓦 。 本 来 是 正确 的 ， 但 由 于 随机 性 使 检验 统计 量 的 观测 值 落 入 拒绝 域 
(小 概 滨 事件 并 非 不 可 能 发 生 )， 依 检验 规则 应 当 和 否定 原 假设 。 这 时 的 结论 犯 了 “以 真 为 假 ” 
的 错误 ， 即 否定 了 正确 的 原 假 设 。 

显然 ，5.1.1 节 中 讲解 的 检验 准则 是 对 检验 中 犯 第 一 类 错误 的 概率 控制 ， 即 

P{ 和 否定 Ho | 已 为 真 } = P{ 第 一 类 错误 } = c 
c 为 事先 给 定 的 显著 性 水 平 。 

包 第 二 类 错误 。 如 果 原 假设 鼠 , 是 错误 的 ， 同 样 由 于 随机 性 使 检验 统计 量 的 观测 值 没有 
洛 入 拒绝 域 ， 依 检验 规则 不 能 否定 原 假设 。 这 时 的 结论 犯 了 “以 假 为 真 ” 的 错误 ， 即 接受 了 
错误 的 原 假设 。 犯 第 二 类 错误 的 概率 记 为 

PI{ 不 否定 如 ,| 万 为 假 } = P{ 第 二 类 错误 } = 8 
或 
P{ 接 受 忆 ,| 也 为 真 } = P{ 第 二 类 错误 } = B 

我 们 希望 检验 的 结论 使 犯 两 类 错误 的 概率 同时 都 很 小 ， 最 好 是 全 为 0， 但 这 是 一 个 两 难 
问题 ， 当 样本 容量 给 定 后 ， 犯 这 两 类 错误 的 概率 就 不 能 同时 被 控制 了 。 为 了 说 明 这 种 两 难 
性 ， 引 入 检验 的 势 函 数 的 概念 。 

定义 5-2 (检验 的 势 函 数 ) 设 @ 为 9 的 参数 空间 ，@ UG, =@ 且 @unmg@ =C。 检 验 的 
原 假设 如 : gsG@〈 备 择 假设 为 局 : geG@l ) 的 拒绝 域 为 柬 ， 则 检验 统计 量 7 的 观测 值 落 
入 拒绝 域 灰 的 概率 

sg(9)=PITep)，be9 
称 为 该 检验 的 势 函 数 。 

实质 上 ， 势 函数 是 对 犯 第 一 类 错误 的 概率 c (c(2)) 和 犯 第 二 类 错误 的 概率 8 (6(6)) 的 统 

一 描述 ， 是 参数 的 函数 。 其 关系 式 为 
cx(0O)， Oo9， 
0 ge9i 





cx(9)=gO， oOeGh 
p(O)=1-g(9)，be@ 
为 表述 简单 ， 在 变量 尤 ~ N(o2) ，o 已 知 的 条 件 下 ， 以 检验 
忆 0: HA>Ai 而 : AL<A 
为 例 ， 对 这 一 结论 进行 说 明 。 同 例 $-1， 这 里 已 的 检验 统计 量 仍 为 革 ， 拒 绝 域 政 =(-co,c] ， 
| - 
an afwn al/Vn 


于 是 
又 出 犯 第 一 〈 二 ) 类 错误 的 概率 c(P) 的 定义 可 知 : 

当 Aw>M 时 ，g(D= PLXe 了 = 忆 否 定 妈 | 瑟 为 真 }=w， 即 wx 是 w 的 函数 。 

当 A< 负 时，8g(UO= PE 于 ;= PR 在 定 o | 如 为 真 } =1- P( 接 受 Ho | 娓 为 真 ) =1-O ， 
即 B 也 是 w 的 函数 。 

显然 ， 犯 两 类 错误 的 概率 可 统一 由 势 函 数 表示 ， 即 





C 








= =df-< 和 |，np> 
c(H)=S(H) 9 AH 之 HA 





=1-g()=1-Ol 一 和 |， 
LA S(H) 蕊 9 AL< AL 


由 这 两 个 式 子 可 以 看 出 (Ca 和 呈 是 确定 的 ， o| 3 人 扩 j c 的 单调 增 函数 )， 要 使 xx 减 小 ， 
CT 天 


点 使 四 | < 天 变 小 ， 此 时 导致 1-@ 2 人 ， 即 8 变 大 ;反之 ， 要 使 5 减 小 ， 
应 佑 o| 人 估 ] 中 的 < 变 4 十 导致 区- 变 大 ， 即 8 变 大 ; 反之 ， 要 使 B 减 " 


他-@| 和 全 ] 杰 小 此 时 导致 c 变 大 ， 即 w 变 大 。 这 说 明 在 假设 检验 的 过 程 中 ， 在 给 定 
样本 容量 的 条 件 下 ， 人 们 不 可 能 使 犯 两 类 错误 的 概率 同时 都 很 小 即 w 与 8 之 间 -- 个 变 小 必 
然 导 致 另 一 个 变 大 。 

因此 ， 在 假设 检验 的 实际 应 用 中 ， 通 常人 们 只 能 控制 犯 第 一 类 错误 的 概率 ， 即 根据 实 
际 情 况 ， 通 过 控制 显著 性 水 平 x 的 大 小 来 减少 犯错 误 的 可 能 性 。 这 种 做 法 通常 称 为 显著 性 

在 显著 性 检验 过 程 中 ， 当 人 们 宁可 “以 假 为 真 ” 而 不 愿 “ 以 真 为 修 ” 时 ， 则 应 把 w 取得 
很 小 ,如 wx =0.01。 反 之 ， 则 应 把 c 取得 大 些 ， 如 w =0.1， 折 中 的 取 法 是 w =0.05。 例 如 ， 
某 药品 含有 毒性 ， 必 须 严 格 控制 不 得 超过 规定 的 指标 。 如 果 设 原 假 设 为 产品 不 合格 〈 毒 性 超 
过 某 一 标准 )， 则 应 把 wx 取得 很 小 ， 这 样 才 能 保证 用 药 的 安全 ， 当 然 难免 会 把 一 些 合格 品 当 
成 废品 处 理 了 。 在 另 一 些 情况 下 正好 相反 ， 如 检查 袋 装 食品 的 质量 ， 就 没有 必要 那么 严格 ， 
如 果 原 假设 为 产品 不 合格 〈 质 量 低 于 某 标 准 )， 可 以 把 c 取得 稍 大 些 。 不 管 在 什么 情况 下 ， 
为 了 保证 8 不 致 于 太 大 ， 样 本 容量 都 不 应 太 小 。 

















区 虽 假设 检验 与 区 间 估 计 的 关系 | 


假设 检验 与 了 区 间 估 计 是 两 种 最 重要 的 统计 推断 形式 ， 这 两 者 初 看 起 来 好 像 完 全 不 同 ， 
其 实 两 者 之 间 有 一 定 的 联系 。 利 用 区 间 估 计 可 建立 假设 检验 ， 反 之 亦 然 。 下 面 仍 通过 例 5-1 
作 简 要 说 明 。 

设 总 体 蕊 ~ No)，e 已 知 ， 阁 求 / 的 区 间 估 计 ， 应 选择 统计 量 


丰 二 过 下 


olvVn 
按 曾 信 水 平 1- c 确定 一 个 大 概率 事件 


"| < “| =1 一 C 


由 此 ， 得 到 Aw 的 置信 水 平 为 1- c 的 区 间 估 计 为 


[二 wa 昼 
这 个 区 间 估 计 恰 好 是 原 假设 已 : w= 向 的 一 个 接受 区 域 ， 显 著 性 水 平 为 wx 。 
问题 是 ， 如果 检验 假设 
石 g : =AL0; 局 : 凡夫 [0 
选取 的 统计 量 是 
艺 - 


oa/ 


U= 





0 ~ N(0,1 


对 给 定 的 显著 性 水 平 w ， 得 到 小 概率 事件 


多 | > ww op 是否 成 立 ， 决定 是 否 拒绝 原 假 设 。 
、| 苑 - 
拒绝 域 为 丈 多 > -aa ， 则 接受 域 为 丈 全 < -oa， 再 把 A 改 为 4， 那 么 结果 正 
是 w 的 区 间 估 计 ， 置 信 水 平 为 1- ex 。 


需要 注意 的 是 ， 假 设 检验 和 区 间 估 计 的 结果 在 解释 上 是 有 差别 的 。 

例如 ， 在 检验 局 : 4=A =0 〈 显 著 性 水 平 为 we ) 的 同时 对 w 作 区 间 估 计 《〈 置 信 水 平 
为 1- 一 C )， 可 能 会 ; 1 现 以 下 几 种 情况 。 

GD 检验 的 结论 与 区 间 估 计 一 致 。 如 检验 接受 媚 , ， 区 间 估 计 为 〈-0.001, 0.001)。 按 假设 
检验 ， 应 接受 4&=0;， 按 区 间 估 计 ，Aw 可 能 取 到 的 最 大 值 和 最 小 值 都 很 接近 0， 两 者 的 解释 
一 致 。 

@ 区 间 估 计 强 化 了 检验 的 结论 。 如 果 检 验 拒 绝 豆 ， 区 间 估 计 为 《1000, 2000)。 按 假设 
检验 ， 应 拒绝 4w&=0 ;， 按 区 间 估 计 ， 区 间 中 不 包含 0， 即 0 不 看 做 w 的 一 个 可 能 值 ， 而 且 区 








相 实 于 | 





alvVn 
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间 的 最 小 值 也 有 1000， 与 0 相去 甚 远 ， 故 认为 wz#0 的 理由 很 充分 ， 区 间 估 计 的 结论 加 强 了 
假设 检验 的 结论 。 

图 检验 的 结论 与 区 间 估 计 不 协调 。 如 检验 拒绝 所 ， 区 间 估 计 为 《0.001,，0.002)。 按 假 
设 检验 ， 应 拒绝 kw= 0 ; 按 区 间 估 计 ， 区 间 中 不 包含 0， 从 这 个 方面 看 两 者 一 致 。 可 是 细 看 
这 个 区 间 ， 就 发 现 整个 区 间 在 0 的 附近 ， 因 此 实质 上 可 以 认为 上 就 是 0。 这 样 ， 区 间 估 计 的 
结论 〈 在 实质 上 ) 就 与 假设 检验 不 同 了 。 又 如 检验 接受 拟 ， 区 间 估 计 为 〈-1000, 1$00)。 接 
假设 检验 ， 应 接受 4&=0 ; 按 区 闻 人 估计， 区间 中 包含 0， 即 0 是 4 的 一 个 可 能 值 ， 在 这 一 点 

与 假设 检验 的 结论 一 致 。 可 是 细 看 这 个 区 间 ， 最 大 可 以 到 1500， 最 小 可 以 到 -1000， 这 中 

间 哪 一 个 值 都 有 可 能 。 因 此 ， 从 区 间 估 计 的 角度 来 看 ， 实 在 没有 多 大 把 握 认为 & 的 取 值 都 在 
0 附近 ， 这 就 与 假设 检验 的 结论 不 大 协调 了 。 

由 此 例 可 以 看 出 ， 统 计 上 的 结论 一 定 要 注意 其 实质 含义 ， 如 只 停留 在 表面 ， 就 有 可 能 被 
引入 误区 。 


5.2 ” 单 正 态 总 体 的 假设 检验 


正 态 总 体 Na”) 的 假设 检验 问题 主要 有 下 列 几 种 : 
@ 已 知 方差 ac” ， 检 验 零 假设 刀 , : =A (Am 为 已 知 数 )。 
@ 未 知 方差 ac" ， 检 验 零 假设 玉 : 4=A (为 已 知 数 )。 
@ 未 知 期 望 A (均值 )， 检 验 零 假设 珈 : o =ao (on 为 已 知 数 )。 
@ 未 知 期 望 A 〈 均 值 )， 检 验 零 假 设 媚 : o 和 ao (oo 为 已 知 数 )。 
总 体 均 值 的 检验 
1. 已 知 方差 c* ， 关 于 刀 的 检验 (4 检验 法 ) 
已 知 方差 cc” ， 关 于 Aw 的 检验 主要 有 双边 检验 和 单 边 检 验 两 种 。 
@ 双边 检验 : 如 : HU=A: : AtAm。 
@ 单 边 检验 : io: AU=HA; 男 : 4>M (或 所 : <A)。 
现 就 两 种 检验 方法 介绍 如 下 。 
设 铝 , 夺 ，; 光 ,是 正 态 总 体 区 ~ N(pa2) 的 一 个 样本 ， 其 中 A 未 知 ，a = og 〈 已 知 )。 
用 样本 检验 假设 。 








压 : 4=AM (为 已 知 数 ) 夯 : HAx#J 
当 古 成 立时 ， 检 验 统计 量 尽 满 足 


[一 革 





~ 和 N(0,U 


人 

对 给 定 显 著 性 水 平 e ， 查 标准 正 态 分 布 表 ， 得 临界 值 xz ， 使 得 
2 

CC 

2 人 ( 纯 )=1-3 


实 
2 





可 以 算出 Pol>zj=< ， 由 此 得 媚 的 拒绝 域 | -2 | 和 忒 的 相 容 域 
2 2 2 


(2' 纯 )。 由 样本 值 x, 疡 ,…,x, 计算 检验 统计 量 忆 的 值 。 
若 | 几 > ze。 《〈 即 落 在 拒绝 域 中 )， 则 拒绝 刀 ， 接 受 局 ， 若 |o|<z。(〈 即 落 在 相 容 域 中 )， 


后 弛 
则 接受 已 。 


这 种 检验 统计 量 服从 N(0,D 。 把 通过 检验 统计 量 忆 = 7 确定 拒绝 域 的 检验 法 称 为 zx 
CT 到 





【 例 5-3】 某 种 子 公 司 在 销售 胡 葛 让 种 子 的 说 明 书 中 声称 : 用 该 种 子 生产 的 胡萝卜 的 平 
均 长 度 为 11.5cm。 某 人 买 了 40 粒 这 种 胡 葛 小 种子， 种 植 后 得 到 的 胡 草 小 长 度 的 数据 见 表 
5-2。 若 胡 葛 小 长 度 的 标准 差 为 1.15cm， 问 在 显著 性 水 平 0.05 下 ， 是 否 可 以 接受 种 子 公 司 关 
于 胡 葛 小 的 半 均 长 度 的 说 明 。 


表 5-2 胡 梦 小 长 度 的 数据 


本 己基 看 玫 是 醒 卫 因 本 工 表 面世 古本 王 到 

[| 

[wo 

解 : 用 蕊 表 示 胡 葛 小 的 长 度 ， 可 以 认为 基 -N(C1.152) 。 现 在 需要 解答 假设 检验 问题 
Zoo:，， AAA=11.5 

调用 x 检验 法 函数 ztest， 其 调用 格式 如 下 : 











[h, p, ci u]=ztest(x, m, sigma, alpha, tail) 


其 中 ， 输 入 参数 x 为 样本 数据 向 量 ，zm 为 待 检验 均值 ，sigma 为 正 态 分 布 的 标准 差 ， 
alphpa 为 显著 性 水 平 〈 默 认 值 为 0.05)，iail 为 检验 的 备 择 假设 的 标示 值 (aiE0 表示 双 侧 检 
验 ，tai=]1 表示 右 侧 检验 “>”， 如 让 -1 表示 左 侧 检验 “<”:， 输出 参数 /为 检验 决策 值 (p=0 
表示 在 显著 性 水 平 alppa 下 不 能 拒绝 原 假设 ，A=!1 表示 在 显著 性 水 平 apjpa 下 可 以 拒绝 诛 假 
设 )，P 为 拒绝 原 假设 的 最 小 显著 性 概率 ，c;i 为 真实 均值 w 的 1-alpjpa 置信 区 间 ，x 为 检验 统 
计量 的 值 。 

在 MAILAB 命令 窗口 中 ， 将 表 5-2 中 的 数据 赋 给 列 向 量 x， 然 后 运行 程序 代码 


>> clear all; 
x=[11.50,10.08,12.14,12.33,10.68,13.37,13.37,11.96.12.38.12.20,.. 
11.79,.12.88,11.32,14.51,11.84,12.31,13.23,12.07,11.89,11.04.. 
12.34,10.46,12.84,13.87,11.20,12.99,13.44,10.17,10.34,12.66,. 
11.54,12.79,12.94,12.82,13.48,12.77,13.37,10.62,11.98,11.82]; 
[h,sigj=ztest(x,11.5,1.1S,0.05,0) 


运行 程序 ， 和 输出 如 下 : 
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h = 
] 
Sig 二 
1.71$4e-004 


即 在 显著 性 水 平 0.05 下 夏 绝 原 假设 。 


注意 : @ 在 本 例 中 ， 由 已 知 计 算出 尾 概率 为 0.00017， 因 此 在 显著 性 水 平 0.001 下 ， 也 
要 拒绝 原 假 设 ， 且 这 种 拒绝 犯错 误 的 概率 不 超过 0.001。 

@ 在 本 例 中 ， 由 于 使 用 了 双边 检验 ， 所 以 在 显著 性 水 平 0.05 下 的 检验 结果 只 能 拒绝 种 
子 公司 关于 胡萝卜 的 平均 长 度 的 说 明 ， 这 种 拒绝 犯错 误 的 概率 为 0.05。 

如 果 想 进一步 判断 胡 葛 小 的 平均 长 度 是 否 大 于 11.5cm， 则 需要 解答 单 边 检验 问题 。 

2. "未知 ， 关 于 岂 的 检验 〈t 检验 法 ) 

co 末 知 ， 关 于 的 检验 主要 有 两 类 检验 问题 

@ 1 4L=A; : AHo。 

@ 有 :HU=HA;: 而 : 4>M (或 媚 : AU<A )。 

现 就 第 一 类 检验 问题 检验 法 介绍 如 下 。 

设 忆 ,大 , 克 是正 态 总 体 Na2) 的 样本 ， 其 中 未知，A 未 知 。 用 样本 检验 假设 

1o: HA=Hmi 下: U 关 [0 


由 于 未 知 ， 故 不 能 利用 x = 7 各 来 确定 拒绝 域 了 。 注 意 到 S" 是" 的 无 偏 估计 ， 现 
GAN 








在 用 8 来 代替 ca ， 采 用 








元 一 MA 
7 = 
S/wWn 
作为 统计 量 。 当 瓦 为 真 时 ， 由 定理 知 
和 
7= ~Kn 一 1 
S/Vn 


于 是 对 于 给 定 的 w ， 由 ! 分 布 表 可 查 得 临界 值 &(z-D ， 使 忆 f 人 |> 上 az-I}=c ， 即 得 

折 绝 并 为 -二 | 人 +] 根据 样本 值 算出 检验 统计 量 7， 将 人 与 二 -比较 检验 
2 2 2 

假设 已 ， A= 内 是 否 成 立 。 

当 人 川 总 (az-D 时 〈 即 落 入 拒绝 域 )， 拒 绝 如 ， 接 受 古 。 

当 付 < 二 =-D 时 〈 即 落 入 相 容 域 )， 接 受 书 。 

对 于 第 二 类 检验 问题 丽 : AU=A; 而 : 4U> 内 (或 : 4< 由 )， 当 o 未 知 时 ， 关 
于 4 的 单 边 检 验 步 骤 与 上 述 内 容 类 似 ， 不 同 的 是 拒绝 域 的 确定 。 请 读者 自行 给 出 。 


上 述 利用 统计 量 得 出 的 检验 法 称 为 上 + 检验 法 。 
【 例 5-4】 设 某 次 考试 的 学 生成 绩 服从 正 态 分 布 ， 从 中 随机 抽取 36 位 学 生 的 成 绩 ， 算 








得 平均 成 绩 为 66.5 分 ， 标准 差 为 15 分 。 问 在 显著 性 水 平 0.05 下 ， 是 否 可 以 认为 这 次 考试 全 
体 学 生 的 平均 成 绩 为 70 分 ? 
解 : 由 题 意 ， 待 检验 设 为 


26o: HA=70; 刀 : 70 
若 夯 成 立时 ， 选 取 检验 统计 量 
区 一 AM 
了 = 
S/wn 
在 显著 性 水 平 c=0.05 下 ， 查 :分布 表 ， 得 临界 值 
ie(2-J)=tos(35)=2.0301 
2 





拒绝 域 为 (-oo,-2.0301]U[2.0301+eoo) 。 
检验 统计 量 的 值 为 





1=.665 一 20 - -1.4e(-2.0301,2.0301) 


15/V36 
沙 在 相 容 域 中 ， 故 接受  ， 即 以 可 以 认为 在 这 次 考试 中 全 体 学 生 的 平均 成 绩 为 70 分 。 


【 例 5-5】 对 于 例 5-3 中 的 数据 ， 问 在 显著 性 水 平 c =0.05 下 是 理 可 以 接受 种 子 公 司 关 
于 胡 梦 小 的 平均 长 度 的 说 明 。 
解 : 治 用例 5-3 中 解答 的 符号 ， 现 在 需要 解答 单 边 假设 检验 问题 
丽 : AU=11.5 
由 于 题目 中 没有 给 出 总 体 变量 的 标准 差 ， 所 以 现在 而 临 的 是 在 方差 未 知 的 情况 下 总 体 均 
值 的 双边 假设 检验 问题 。 在 MATLAB 命令 窗口 中 ， 将 表 5-2 中 的 数据 赋 给 列 向 量 x， 然 后 
运行 程序 代码 


>> [hisig]=ttest(x,11.5.0.05,0) 
运行 程序 ， 输 出 如 下 : 


h = 
1 
Sig== 
2.3808e-004 


由 结果 可 知 ， 在 显著 性 水 平 ce =0.05 下 拒绝 原 假 设 。 


注意 : 与 例 5-3 中 的 尾 概率 0.00017 相 比较 ， 这 里 的 尾 概率 更 大 。 这 说 明 利用 总 体 标 准 
差 的 信息 能 够 降低 犯 第 一 类 错误 的 概率 。 


【 例 5-6】 某 车 间 用 一 台 包装 机 包装 和 葡萄糖， 每 袋 葡萄 糖 的 重量 是 一 个 随机 变量 ， 它 服 
从 正 态 分 布 。 当 机 器 正常 时 ， 其 均值 为 0.5kg， 标 准 差 为 0.015kg。 某 日 开工 后 检验 包装 机 是 
否 正常 ， 随 机 抽取 9 袋 包装 的 糖 ， 称 得 净重 〈 单 位: kg) 为 0.497, 0.506, 0.518, 0.524, 0.498， 
0.511, 0.52, 0.515, 0.312。 问 机 器 是 否 正 常 ? 





统计 检验 方法 一 一 假设 检验 


解 ， 这 是 方差 已 知 条 件 下 正 态 分 布 均值 的 检验 问题 。 注 意 到 多 数 样本 数据 大 于 0.5， 故 
作 单 侧 检验 ， 检 验 假设 为 局 : 4U=m=05; 而 : 4>0.5。 注 意 ， 这 里 的 原 假 设 与 备 择 假 


设 是 不 相 容 的， 但 并 非 完 全 对 立 。 这 也 是 在 实际 应 用 中 经 常 采 用 的 检验 命题 的 设 定 技巧 。 


其 实现 的 MATLAB 程序 代码 如 下 ; 是 


>> clear all; 
X=[0.497,0.506,0.518,0.524,0.498,0.511,0.52,0.515,0.512]; 
[h,p,ci,u]=ztest(x,0.5,0.015,0.05,1) 


运行 程序 ， 输 出 如 下 : 


0.0124 
Ci= 
0.5030 Inf 


2.2444 


结果 表明 在 显著 性 水 平 c = 0.05 下 ， 可 拒绝 原 假 设 ， 即 认为 包装 机 工作 不 正常 ， 每 袋 葡 
萄 糖 的 平均 质量 大 于 0.Skg， 由 ci 的 值 可 知 每 袋 葡萄 糖 的 平均 质量 不 低 于 0.503kg 的 置信 水 
平 为 0.95。 

若 忽 视 每 袋 葡 萄 糖 质量 的 标准 差 已 知 的 条 件 ， 则 可 调用 函数 ttest 完成 检验 工作 ， 其 调用 
格式 同 ztest 函数 : 


>> [h,p,ciT]=ttest(x,0.5,0.05,1) 


运行 程序 ， 输 出 如 下 ; 


0.0036 
ci 一 
0.5054 Inf 


tstat: 3.3849 
df8 
sd: 0.0094 


结果 表明 在 0.05 显著 性 水 平 下 ， 上 检验 亦 拒 绝 原 假设 ， 即 认为 包装 机 工作 不 正常 ， 每 袋 
葡萄 糖 的 平均 质量 大 于 0.53kg。 由 产值 可 知 ， 这 个 结论 在 显著 性 水 平 w = 0.01 下 也 是 成 立 的 。 
由 ci 的 值 可 知 每 袋 葡 萄 糖 的 平均 质量 不 低 于 0.5054kg 的 置信 水 平 为 0.99， 结 论 错误 的 风险 
概率 是 0.01。 输 出 参数 7 报告 检验 统计 量 的 观测 值 ktac3.5849，z 分 布 的 自由 度 护 8， 对 每 
袋 葡萄 糖 质量 标准 的 估计 sa0.0094。 





这 里 对 例 5-3 稍 作 引申 。 生 产 商 为 确保 产品 投放 市 场 后 不 出 现 较 多 的 因 质 量 指标 不 合 
而 引起 的 消费 者 投诉 ， 在 生产 过 程 中 实际 的 装 袋 质 量 往往 大 于 向 市 场 承诺 的 标准 质量 。 在 此 
例 中 ， 如 果 将 袋 装 葡萄 糖 的 平均 质量 为 0.3kg、 标 准 差 为 0.015kg 理解 成 是 生产 商 对 产品 质量 
指标 的 承诺 《而 不 是 包装 机 的 实际 生产 控制 参数 )， 则 由 每 袋 葡 萄 糖 质量 的 样本 标准 差 小 才 
0.01kg〈 更 小 于 0.015kg) 可 以 认为 ， 包 装机 的 工作 状态 是 平稳 的 。 因 此 ， 样 本 均值 大 寺 
0.5kg 应 是 生产 商 确保 质量 指标 承诺 的 体现 。 实 际 上 ， 若 以 样本 均值 和 样本 标准 差 作 为 包装 
机 的 实际 控制 参数 〈 估 计 )， 则 可 以 推算 出 该 生产 商 投 放 到 市 场 上 的 袋 装 葡萄 糖 每 袋 质量 大 
于 0.5kg 的 比率 ， 如 下 所 示 。 

>> p=1-normcd 人 0.S$,mean(x),std(x)) 
运行 程序 ， 输 出 如 下 : 


0.8840 
即 88% 的 袋 装 和 葡萄 糖 的 质量 大 于 0.5kg。 
【 例 5-7】 试用 正 态 分 布 随机 数 函 数 生成 一 组 随机 数 ， 并 对 该 随机 数 进 行 均值 假设 检验 。 
解 : 假设 先 由 MATLAB 语句 生成 一 组 400 个 N(L22) 的 正 态 分 布 随机 数 ， 由 于 已 知 标准 
差 为 2， 可 以 引入 假设 已 , : A=1， 这 样 可 以 由 下 面 的 MATLAB 语句 进行 检验 ， 得 出 
妃 =0， 故 可 以 接受 该 假设 。 其 实现 的 MATLAB 程序 代码 如 下 ; 


>> r=normrmd(1,2,400,1); 
>> [H,p,ci]=ztest(r,1,2.0.02) 


运行 程序 ， 输 出 如 下 : 


也 一 
0 
p= 
0.4034 
ci 一 
0.6838 1.1491 
现在 将 假设 设置 为 媚 ,: 4= 0.5， 则 可 以 给 出 如 下 语句 : 
>> [H,p,cij=ztest(r,0.5,2,0.02) 
运行 程序 ， 输 出 如 下 ; 


H = 
1 
p= 
3.1214e-005S 
ci 一 
0.6838 1.1491 
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得 出 妃 =1， 表 示 应 该 拒绝 忌 假 设 。 若 认为 标准 差 未 知 ， 则 可 以 采用 ! 检验 对 假设 
局 : 4=1 进 行 检 验 ， 假 设 检验 可 以 由 下 面 的 MATLAB 语句 直接 得 出 。 


>> [Hp,ci]=ttest(r,1.0.02) 全 
运行 程序 ， 输 出 如 下 : 刘 
了 = 


0.3756 
cj = 
0.6964 1.1364 


让 王 得当 的 开 二 人 故 表示 可 以 接受 该 假设 。 
总 体 N(pa2) 方 差 o2 的 检验 
方差 o” 的 假设 检验 在 此 主要 讲解 下 列 情形 。 
均值 w 未 知 ， 方 差 eo- 的 双边 检验 : 
媚 : o=ag; 有 :za 
均值 叉 未知 ， 方 差 e" 的 单 边 检验 : 
左边 检验 : 瓦 : o=oa; 局: o<ol 
刀 : o>oo; 加: as<al 
右边 检验 : 刀 : o=oao; 刀 : o>ol 
局: os 和 ol : <ol 
1. 均值 六 未 知 ， 方 差 o 的 双边 检验 〈 大 检验 法 ) 
设 总 体 N(p,o") ，4wa 均 属 未 知 ， 忆 ,和 ,是 样本 。 要 求 检验 假设 〈 显 著 性 水 平 
为 wC): 而 : o=o; : ozol， 其 中 ar 为 已 知 常数 。 
由 于 8 是 的 无 偏 估计 ， 当 忌 。 为 真 时 ，8?/ cz 一 般 来 说 应 在 1 附近 摆动 ， 而 不 应 过 
分 大 于 1 或 小 于 1。 若 取 检 验 统计 量 妇 =(a-DS2/c3 ， 则 由 定理 知 
和 =-DS /ar ~ 庆 (-D 
对 显著 性 水 平 c ， 拒 绝 域 具有 形式 
扩 么 1 或 认 > 








P{ 妇 和 和 +P{ 妇 > 和 = 
为 计算 方便 ， 习 惯 上 取 


玖 及 二 = 


IlR 
心 
一 人 一、 
N。 
\V 
个 
“一 
山 
Mb|R 








故 得 = 和 sn-D ，=MXe-D ， 于 是 拒绝 域 为 [ER 
2 2 


eu 一 De] ， 相 容 域 为 [eao- 1D),Xz (7 一 ) 避 
了 2 2 


上 述 检 验 法 由 于 检验 统计 量 为 祖 且 符合 祝 分 布 ， 故 称 为 太 检验 法 。 
【 例 5-8】 某 工 厂 生 产 铜 丝 ， 工 艺 改进 后 产量 提高 。 现 从 产品 中 抽出 10 根 检 查 拉 断 
力 ， 得 数据 为 $S72, S78, 570, 568, 570, 72, 570, 572, 596, 584。 从 以 往 资料 和 技术 标准 上 知 拉 
断 力 的 方差 or" 为 64 时 合格 ， 和 否则 认为 是 不 合格 的 。 问 工艺 改进 后 铜 丝 产 品 能 否认 为 是 合 
的 ? 
解 : 设 艺 为 铜 丝 的 拉 断 力 ， 根 据 经 验 知 尤 ~ No) 。 由 题 意 知 ， 需 检验 假设 
局 : o=aog=64， 硬 : oz64 
由 样本 值 算 出 丈 = $75.2 
10 10 
(0 -好 = 闻 尖 一 哆 " =3309232 -3308550.4= 681.6 
= 


这 ] 


10 
和 =》 (一 始 ? / az = 681.6/64 =10.65 


i=! 


取 cw=0.05，7=10， 查 自由 度 为 9 的 分 布 表 ， 知 好 os(9)=19.0， 好 srs(9)=2.7， 得 拒 
绝 域 为 [0,2.70]U[19.0,+o] ， 相 容 域 为 (2.70,19.0) 。 由 于 社 =10.65e(2.70,19.0) 落 在 相 容 域 
中 ， 故 接受 六 ， 即 在 显著 性 水 平 c = 0.05 下 ， 工 艺 改进 后 钢丝 产品 是 合格 的 。 

更 取 w= 001， 检 验 统计 量 选 为 妇 = 和 3- ~ 轨 (n-D ， 由 大 分布 表 知 好 sx- 
= 和 如 %(9)=2.088 ， 得 媚 的 拒绝 域 为 如 乏术 (a-lD ， 由 样本 算出 如 =218.1/142 =1.113 < 
2.088 〈 在 拒绝 域内 )， 故 拒绝 豆 , ， 接 受 马 ， 即 提纯 后 的 样本 高 度 更 整齐 。 

2. 均值 w 未 知 ， 方 差 er* 的 单 边 检 验 〈 大 检 验 法 ) 

在 此 讲解 正 态 总 体 NU o2) ，mo: 均 未 知 ， 假 设 为 

丽 : @ 世 oil， 其 中 al 为 已 知 和 常数， 有: o >a 
的 检验 问题 。 顺 便 指 出 ， 这 种 检验 在 实际 中 很 有 应 用 价值 ， 生 产 中 为 了 了 解 加 工 精度 有 无 变 
化 ， 进 行 抽 样 ， 如 算得 样本 方差 8 比 原 来 的 方差 cg 大 ， 这 时 可 检验 假设 局 : go 入 ao 。 经 
过 检验 ， 如 果 能 和 否定 如 ， 说 明 精 度 降 低 了 ， 需 停产 检查 原因 ， 和 否则 ， 精 度 没 有 降低 。 

此 问题 分 析 如 下 : 设 癌 ,和 w 是 来 自 总 体 (pa2) 的 样本 ， 若 8?z/cz 很 大 ， 则 有 
理由 和 否定 假设 媚 , : o 入 ay: ， 否 则 ， 可 以 接受 这 个 假设 。 

在 假设 ro 为 真 的 情况 下 ，$?/ cs 的 概率 分 布 并 不 能 算出 来 ， 但 有 【如 前 所 述 ) 

(2 一 1DS? 
2 
0 


~ 和 (za-D 


于是， 对 显著 性 水 平 c ， 有 临界 值 2= 和 2(a-D ， 使 
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2 
咱 2> 让 -< 
O0 


但 由 于 oz 未 知 ， 故 名 二 DS_ 算 不 出 来 。 在 假设 岂 :oz < oz 下 ,有 
号 - 星 < 了 -5 
0 
因此 


川 2 和 > 让 < 呈 3 1)S2 > 才 -< 
O0 


这 就 表明 ， wh -| 一 个 小于 件 从 而 有 


Oo 





也 :oo 和 ao 有 :oo>o，oy 为 已 知 常数 


(7 -1DS? 
2 


检验 统计 量 z = ， 对 显著 性 水 平 xc ， 临 界 值 4= 入 (2 -1) ， 拒 绝 域 为 [zz(a -1) ， 


0 
+o] ， 当 检验 统计 量 的 值 科 关 如 (2-D 时 ， 拒 绝 刀 ， 和 否则 ， 接 受 媚 。 
其 他 情形 方差 oz 的 单 边 检 验 也 有 类 似 的 讲解 ， 这 里 从 略 。 


【 例 5-9】 电工 器 材 厂 生产 一 批 熔 丝 ， 抽 取 10 根 试验 其 熔断 时 间 ， 结 果 为 42, 65, 75, 78， 


71, 59, 57, 68, 54, 55。 
已 知 迷 断 时 间 服 从 正 态 分 布 。 问 是 否 可 认为 整 批 炊 丝 的 熔断 时 间 的 方差 不 大 于 80? 取 显 著 性 
水 平 w<=0.05 。 
解 : 由 古 意 知 ， 待 检验 假设 为 
析 :os 和 80， 岂 :ao>80 
此 检验 为 右边 检验 。 对 显著 性 水 平 c ， 临 界 值 为 花 (a-D= 祝 ws(9)=16.919 ， 拒 绝 域 为 
[16.919,+oo) 。 


10 
由 样本 值 可 知 款 = 62.4 ，》 ,(x 一 刀 ? =1096.4 ， 检 验 统计 量 的 值 


=1 
( 厂 一 旭 ” 
(2-DS _ 和 _1096.4 


2 二 





2 2 
op al 80 


故 接受 已, ， 即 在 显著 性 水 平 w= 0.05 下 ， 可 以 认为 整 批 熔 丝 的 熔断 时 间 的 方差 不 大 
于 80。 


5.3 ”两 正 态 总 体 参 数 的 假设 检验 


上 面 讲解 了 单个 正 态 总 体 参数 的 显著 性 检验 ， 它 是 把 样本 统计 量 的 观察 值 与 原 假设 所 提 
供 的 总 体 参数 作 比 较 ， 这 种 检验 要 求 事先 能 提出 合理 的 假设 值 ， 并 对 参数 有 某 种 意义 的 备 择 
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值 ， 但 在 实际 工作 中 很 难 做 到 这 一 步 ， 因 而 限制 了 这 种 方法 在 实际 中 的 应 用 。 实 际 中 稼 常 ; 
择 两 个 样本 ， 一 个 作为 处 理 ， 另 一 个 作为 对 照 。 在 两 个 样本 间作 比较 ， 如 比较 两 种 处 理 之 间 
的 差异 ， 两 种 实验 方法 或 两 种 药物 的 疗效 等 ， 判 断 它 们 之 间 是 否 存在 足够 显著 的 差异 。 或 者 
说 ， 判 断 它们 之 间 的 差异 能 否 用 偶然 性 解释 ， 当 不 能 用 偶然 性 解释 时 ， 则 认为 它们 之 间 存 在 
足够 显著 的 差异 ， 从 而 推断 两 个 样本 来 自 不 同 的 总 体 。 





方差 未 知 但 相等 时 两 个 正 态 总 体 均值 的 检验 
设 有 两 个 独立 的 正 态 总 体 站 ~ NUUaf) ， 了 ~ Na2) ， 和 和 和 与 攻克 六 


分 别 是 羡 和 了 的 样本 ， 郑 ， 工 ，S! ，8$2 是 相应 的 样本 均值 和 样本 方差 。 常 见 的 关于 均值 的 





假设 检验 如 下 。 
@ 万 : 由 = 如 珈 :向 关 信 〈 称 为 双边 检验 ， 瓦 可 略 而 不 写 )。 
和 @ 万 : =H 而 : 向 > 凤 或 加 : 由 乏 太 : 斩 : 由 > 全 〈 称 为 右边 检验 )。 
@@ Fo = 万 : Am< 呈 或 : 向 H[; 司 : JW< 全 〈 称 为 左边 检验 )。 
以 咱 ， 叶 未知， 但 ay = ca 为 例 ， 讲 解 检 验 假设 馈 : A= 刀 ;， 硬 : 向 关 刀 ， 即 得 到 
检验 统计 量 为 
站 
号 
Mi 了 2 
2 2 用 
人 号 -下 LTG- 疗 ， 


当 古 成 立时 ， 检 验 统计 量 


0 + 了 见 一 2) 


于 是 ， 对 给 定 的 显著 性 水 平 ck， 查 上 分 布 表 ， 取 临界 值 刀 (+ 浆 -2) ， 由 
] 


zl 如 (和 十 转 - 寺 =w% 得 部, 的 拒绝 域 为 
2 
| 有 > 玫 (a + 冯 -2) 
2 


【 例 5-10】 设 甲 、 乙 两 煤矿 出 煤 的 含 区 率 〈 单 位 : %) 都 服从 正 态 分 布 ， 即 
三 ~N4,7.53) ， 了 ~ N(,2.6) 。 为 检验 两 煤矿 的 煤 含 灰 率 有 无 显著 性 差异 ， 从 两 煤矿 中 各 
取样 若干 份 ， 分 析 结果 如 下 。 

甲 矿 ，24.3, 20.8, 23.7, 21.3, 17.4 

乙 矿 : 18.2, 16.9, 20.2, 16.7 
试 在 显著 性 水 平 w = 0.05 下 ， 检 验 “ 含 灰 率 无 差异 ”这 个 假设 。 

分 析 : 检验 假设 为 

有 oo: 向 = 和 而 : 稚 关 他 





检验 方法 假设 检验 





取 检验 统计 量 闷 -下 ， 由 于 oz ，o 均 已 知 ， ee 检验 
CO 
1 7 


准则 是 Po> 6}< cx ， 即 拒绝 域 为 |U|>6 。 
其 实现 的 MATLAB 程序 代码 如 下 : 





>> clear all; 
x=[24.3,20.8,23.7,21.3,17.4]; 
y=[18.2,16.9,20.2,16.7]; 
alpha=0.05; % 设 定 显著 性 水 平 
U=(mean(x)-mean(y))/sqrt(7.5/5+2.6/4); ”%% 计 算 检 验 统计 量 的 观测 值 
DETA=norminv((1-alpha/2),0,1); % 求 拒绝 域 的 临 异 值 
pl1-normcdAU,0,1D); % 求 拒绝 原 假 设 的 最 小 显著 性 概率 
ifabs(U)>DETA  % 决 策 ,拒绝 原 假设 ， 则 返回 h=1;， 否则 返回 h=0 
h=]1; 
else 
h=0; 
end 
alphah,p,U,DETA 


运行 程序 ， 输 出 如 下 : 


alpha = 
0.0500 


1 
储 
0.008S 
U = 
2.3870 
DETA = 
1.9600 
结果 表明 ， 在 显著 性 水 平 w = 0.05 下 ， 认 为 甲 矿 含 藉 率 与 乙 矿 含 亦 率 有 显著 性 差异 。 
大 注意 到 含 灰 率 数据 的 均值 甲 矿 明显 大 于 乙 矿 ， 进 行 单 侧 检验 更 为 恰当 ， 检 验 假设 可 表 
如 = :和 > 和 
此 时 ， 检 验 准则 是 Pol> 5 和 cc ， 即 拒绝 域 为 以 > 5 。 相 应 的 数据 处 理 过 程 只 需 在 上 述 
MAILAB 指令 集中 ， 将 语句 
>>DETA=norminv((1-alpha/2),0,1) 
修改 为 


>> DETA=norminv((1-alpha),0,1) 








DETA = 1.6449 


即 可 ， 此 时 DETA = 1.6449， 其 他 计算 结果 不 变 。 相 应 的 检验 结论 是 : 在 显著 性 水 平 
w=0.05 下 ， 认 为 甲 矿 含 亦 率 显著 地 大 于 乙 矿 含 灰 率 。 由 P 值 可 知 ， 这 个 结论 在 显著 性 水 平 
ca=0.01 下 也 是 成 立 的 。 
MATILAB 给 出 了 方差 未 知 但 相等 的 条 件 下 ， 用 于 两 个 正 态 变量 均值 差 的 检验 函数 
ttest2， 其 使 用 方法 与 函数 ttest 类 似 。 
【 例 5-11】 在 平 炉 上 进行 一 项 试验 ， 以 确定 改变 操作 方法 的 建议 是 否 会 增加 钢 的 产 
率 。 试 验 是 在 同一 只 平 炉 上 进行 的 。 每 炼 一 炉 钢 时 除 操作 方法 外 ， 其 他 条 件 都 尽 可 能 做 到 相 
同 。 先 用 标准 操作 方法 炼 一 炉 ， 然 后 用 建议 的 新 操作 方法 炼 一 炉 ， 以 后 交替 进行 ， 各 炼 10 
炉 ， 其 产 率 分 别 如 下 : 
标准 操作 方法 : 78.1, 72.4, 76.2, 74.3, 77.4, 78.4, 76.0, 75.5, 76.7, 77.3 
新 操作 方法 :79.1, 81.0, 77.3, 79.1, 80.0, 79.1, 79.1, 77.3, 80.2, 82.1 
设 这 两 个 样本 相互 独立 ， 且 分 别 来 自 正 态 总 体 NU,c") 和 No) ， 册 ia 均 未 
知 。 问 建议 的 新 操作 方法 能 和 否 提 高 产 率 ( 取 w =0.05 ) ? 
其 实现 的 MATLAB 程序 代码 如 下 : 
>> clear all; 
X=[78.1, 72.4, 76.2, 74.3, 77.4, 78.4, 76.0, 75S.5, 76.7. 77.3]; 
Y=[79.1, 81.0, 77.3, 79.1, 80.0, 79.1, 79.1, 77.3, 80.2, 82.1]; 
[hsig,ci]=ttest2(X,Y,0.05,-1) 
运行 程序 ， 输 出 如 下 : 
h = 1 
sig= 2.1759e-004 
CI 三 
-Inf -1.9083 
/=1 表示 在 显著 性 水 平 c = 0.05 下 应 该 不 接受 原 假设 ，sig=2.1759e-004 表明 两 个 总 体 均 
值 相 等 的 概率 很 小 ， 因 此 认为 建议 的 新 操作 方法 提高 了 产 率 ， 比 标准 操作 方法 好 。 


两 个 正 态 总 体 方差 齐 性 〈 相 等 ) 的 检验 
5.3.1 节 讲 解 了 两 个 正 态 总 体 方差 未 知 但 相等 时 ， 总 体 均 值 的 检验 。 然 而 又 怎样 得 出 方 
差 相等 的 结论 呢 ? 这 需要 对 方差 本 身 进 行 检验 。 只 有 通过 检验 接受 方差 这 一 假设 ， 才 能 进行 
上 面 的 两 个 正 态 总 体 的 均值 检验 。 
设 两 个 正 态 总 体 世 ~ Naf) ， 了 ~ MU,o) ， 且 相互 独立 ， 站, 和 天 与 
下 ,六 六 分 别 是 志和 了 了 的 样本 。 下 面 仅 就 由 ，A 末 知 时 ， 讲 解 假设 检验 


2 
而 : 咱 =o2 册 : oo 关 a] 





由 前 面 的 学 习 知 ， 统 计量 


统计 检验 方法 一 一 假设 检验 








~ Fn -1 记 -]) 


当局 为 真 时 ， 则 统计 量 


S2 
已 = 直 ~FOa-l-1 
32 


于 是 查 尺 分 布 表 〈 在 相关 资料 中 查阅 已 分 布 表 )， 取 临界 值 严 (四 -lm -D 和 
莹 





已 (-Lmu -ID)， 使 
2 


PPsFaa -中 UF> 记 On 一 172 -D=C 
2 


得 到 局 , 的 拒绝 域 为 
瓦 > 严 (1 一 1 六-D 或 矶 入 Re 一 1 六 一 D 
2 2 


【 例 5-12】 用 两 种 方法 研究 冰 的 潜 热 ， 样 本 均 取 自 -0.72C 的 冰 。 用 方法 4 做 ， 取 样本 
容量 nl1=13; 用 方法 B 做 ， 取 样本 容量 xz2=8， 测 量 每 克 冰 从 -0.72C 变 0C 的 水 。 其 中 ， 热 
基 的 变化 数据 见 表 5-3。 


表 5-3 ”热量 的 变化 数据 


假设 两 种 方法 测 得 数据 总 体 都 服从 正 态 分 布 。 这 两 种 研究 方法 有 无 显著 性 差异 
(xc=0.05 ) ? 两 组 数据 的 方差 是 否 具有 齐 性 ? 

解 : 检验 局: oa = ay |; 1 : 因 O3 

选取 统计 重 








2 


天 二 六 入 一 72 -了 
32 


则 古 为 真 时 ， 拒 绝 域 为 
古 > 已 (mm -mu -1D 或 古 系 忆 (站 一) 姜 一 ]) 
2 
计算 有 关 数 据 
2 
芳 =80.02 ， 引 ?=5.75x10 ，7=79.98，S2 =9.86x10”， 忆 - 二 =05832 
2 


又 查 驻 分 布 表 ， 得 
到 (一 有 -D)= 玉 os(12,7)=3.61 
2 


- -0.277 


1 
人 1 > 三 二 一 -一 一 
{ 人 :及 一 D) = oo7s(12,7) Fr(277 36 





因 0.277<0.5832<3.61， 即 古 的 值 在 已 。 的 接受 域内 ， 故 接受 瑟 , ， 说 明 两 测试 总 体 的 
方 基 相等 。 故 两 组 数据 的 方差 具有 齐 性 。 


5.4 非 正 态 总 体 参 数 的 假设 检验 


设 总 体 区 服从 某 种 非 正 态 分 布 ， 其 分 布 函 数 ECX;6) 中 含有 未 知 参数 0 ， 即 其 概率 函数 
P(059) 或 概率 密度 函数 (xz;9) 中 含有 林 知 参数 0 。 那 么 其 数学 期 望 ELY)J = wp(6) ， 方 差 
D(Y)=c"(6) 都 是 未 知 参数 0 的 函数 。 从 总 体 中 抽取 大 容量 简单 随机 样本 , 交 ，…, 筷 为 依 
据 ， 来 检验 原 假设 已 : 9=6 。 

由 于 简单 随机 样本 局, 罗 , 基 ,相互 独立 ， 且 与 总 体 攻 服从 相同 的 分 布 ， 因 而 ， 在 原 假 
设 和 如: 9= 印 成 立 的 条 件 下 ， 由 “独立 同 分 布 的 林 德 伯 格 - 列 维 中 心 极 限定 理 ” 知 : 当 样 本 
容量 靖 充 分 大 时 〔〈 一 般 之 50)， 统 计量 


2 -HE(Y) 2 AQ 87_wb) 


VOD Ta (9) 动 ) 


近似 服从 标准 正 态 分 布 (0,D) 。 因 此 ， 在 给 定 的 显著 性 水 平 w 2 有 





"| >2Z | <C( 双 侧 ) : P{7 >Z。} = c( 单 侧 ，P{U<-Ze = c( 单 侧 ) 


【 例 5-13】 某 广 产品 的 优质 品 率 一 直 保 持 在 40%， 近 期 技 监 部 门 来 厂 抽查 ， 共 抽查 了 
12 件 产 品 ， 其 中 优质 品 为 5 件 ， 在 显著 性 水 平 we = 0.05 下 能 否认 为 其 优质 率 仍 保持 在 40%? 
分 析 : 设 藉 表示 检查 一 个 产品 时 优质 品 的 个 数 ， 则 区 ~ 5 p) 。 检 验 问题 为 
刀 : P=04; 思 : 六 关 0.4 


这 是 一 个 双边 检验 问题 。 当 忌 为 真 时 ， 检 验 统计 量 了 = 2 2(12,0.4) ， 拒 绝 域 为 T&ci 


或 7T>c (c<c) 。 其 中 ， 临 界 值 c 是 使 Ptr<cjg0025 成 立 的 最 大 整数 ，e 是 使 
P{T> cj 和 0.025 成 立 的 最 小 整数 。 
其 实现 的 MATLAB 程序 代码 如 下 : 


>>clear all; 
T=5; % 检 验 统计 量 的 观测 值 
alpha=0.025; % 显 著 性 水 平 
p=binocdf0:12,12,0.4); % 为 确定 拒绝 域 临 界 值 ， 计 算 T 的 累积 概率 
for byk=1:7 %% 求 拒绝 域 临界 值 
让 p(byk)<=alpha&cp(byk+l)>=alpha 
cl=byk-1; 
end 
这 1-pP(byk+6))>alpha&(1-p(byk+7))<=alpha 
c2=byk+7; 
end 


计 检 验方 法 一 一 假设 检验 








end 

iT<=clIT>=c2 。”% 检 验 决 策 ,h=1(0) 拒 绝 (接受 ) 原 假设 
h=1 

else 
h=0 

end 

c=[cl,c2] % 输 出 拒绝 域 临 价值 

运行 程序 ， 输 出 如 下 : 

h= 

0 


上 述 计 算 表 明 ， 当 显著 性 水 平 < =0.05 时 ， 由 于 PIT 和 <0.025 而 PIT 乏 ? 人 > 0.025 ， 
故 拒绝 域 的 左 侧 临界 值 c =1， 又 因为 P{T>8}> 0.025 而 P 人 >9j<0.025 ， 故 拒绝 域 的 右 侧 
临界 值 c =9。 于 是 ， 瓦 的 拒绝 域 为 T 和 1 或 了 > 9 。 检 验 统 计量 的 观测 值 7= $ 未 沙 入 拒绝 
域 ， 因 而 在 显著 性 水 平 w =0.05 下 ， 认 为 该 厂 的 优质 品 率 无 明显 变化 。 

【 例 5-14】 从 随机 抽取 的 467 名 男性 中 发 现 有 8 名 色盲 ， 而 433 名 女性 中 发 现 有 1 人 
色盲 ， 在 显著 性 水 平 w = 0.01 下 能 和 否认 为 女性 色盲 的 比例 比 男 性 低 ? 

分 析 : 设 男性 色 言 的 比例 为 台 ， 女 性 色 言 的 比例 为 交  ， 那 么 要 检验 的 假设 为 局 : 
让 关 P; 看: 局 < 疡 。 


其 实现 的 MATLAB 程序 代码 如 下 : 
>> clear alj; 
alpha=0.01; % 显 著 性 水 平 


ESTpl=8/467; 
ESTp2=1/433; 
ESTp=(8+1)/(467+433); 
U=(ESTp1-ESTp2)/sqrt((1/467+1/433)*ESTp*(1-ESTp)) % 检 验 统计 量 的 观测 值 
c=norminv(alpha,0,1) % 求 拒绝 域 的 临界 值 
让 U<=c % 检 验 决 策 ，h=1(0) 碟 绝 〈 接 受 ) 原 假 设 
h=1 
ejse 
h=0 
end 


运行 程序 ， 输 出 如 下 : 


U = 
2.2328 
c= 
-2.3263 
h = 
0 








结果 表明 ， 在 显著 性 水 平 x =0.01 下 不 能 拒绝 原 假 设 ， 即 可 以 认为 女性 色 言 的 比例 比 男 
性 低 。 


5.5 ”变量 分 布 形态 的 检验 


通过 前 几 节 的 讲解 ， 已 经 了 解 了 假设 检验 的 基本 思想 ， 并 讲解 了 当 分 布 形式 已 知 时 关于 
其 中 未 知 参数 的 假设 检验 问题 。 然 而 ， 可 能 遇 到 这 样 的 情形 ， 如 例 5-10 中 ， 认 为 标准 方法 
下 的 钢 的 产 率 服从 正 态 分 布 通常 是 合理 的 ， 但 是 新 操作 方法 下 钢 的 产 率 是 否 仍 服从 正 态 分 布 
是 笛 要 项 的 的 ， 因 为 影响 钢 的 产 率 的 条 件 发 生 了 改变 。 因 此 在 例 5-10 问题 的 分 析 中 ， 更 为 
严 的 思考 应 当 包括 识别 新 操作 方法 下 钢 的 产 率 是 否 为 某 个 止 态 变量 。 此 类 问题 通常 称 为 变 
量 分 布 形态 的 检验 ， 属 于 非 参数 检验 问题 。 本 节 讲 解 非 参数 检验 的 几 个 基本 方法 及 其 应 用 。 


例如 ， 某 公司 雇用 200 名 员工 ， 男 性 和 女性 员工 人 数 分 别 为 : 男性 150 名 ， 女 性 50 
名 ， 该 公司 被 指控 在 雇用 员工 时 有 性 别 歧视 。 要 调查 这 项 指控 ， 需 要 考虑 在 没有 歧视 的 情况 
下 ， 人 人 们 期 望 这 两 种 性 别 的 员工 人 数 。 换 句 话说， 把 期 望 的 频率 与 实际 观测 的 频率 进行 比 
较 ， 就 产生 了 拟 合 优 度 检 验 问 题 ， 即 如 果 观 测 频率 与 期 望 频率 拟 合 优 度 较 好 ， 则 可 以 得 出 结 
论 : 在 给 定 的 显著 性 水 平 下 ， 公 司 没有 歧视 。 该 检验 称 为 刀 拟 合 优 度 检验 。 

为 了 介绍 拟 合 优 度 检验 的 原理 ， 来 分 析 一 下 性 别 歧视 问题 。 需 要 确定 如 果 没 有 歧视 ， 人 
们 期 望 雇用 每 一 性 别 的 人 数 是 多 少 。 一 种 方法 是 考虑 全 体 廊 员 中 男女 性 别 的 比例 一 一 分 别 为 
60% 和 40%。 这 意味 着 期 望 该 公司 雇用 120 名 男性 和 80 名 女性 ， 见 表 5-4。 





表 5-4 某 公司 员工 性 别 期 望 表 


期 单 顿 率 





当然 ， 如 果 在 每 一 种 性 别 中 观测 频率 和 期 望 频 率 没有 差别 ， 那 么 这 足以 证 明 不 存在 
歧视 。 如 果 存 在 差别 〈 如 这 里 的 情况 )， 那 么 提出 问题 的 差别 是 由 偶然 性 引起 的 或 是 差别 
太 大 而 不 仅仅 是 由 偶然 性 引起 的 。 因 此 ， 需 要 构造 基于 观测 频率 和 期 望 频率 之 间 的 差别 
的 统计 量 。 

卡尔 : 皮尔 逊 最 先 提出 了 统计 量 太 可 作为 度量 经 验 分 布 与 假设 分 布 之 间 的 差异 来 检验 
感 是否 成 立 。 和 检验 要 求 假设 媚 中 的 总 体 分 布 瓦 (xz) 的 形式 及 其 参数 必须 是 已 知 的 ， 但 
实际 中 参数 往往 是 未 知 的 。 通 常 ， 需 要 先 用 极 大 似 然 估计 法 估计 出 瓦 (*) 中 的 参数 ， 再 作 
检验 。 

设 总 体 是 m 个 可 能 的 离散 型 随机 变量 ， 不 失 一 般 性 ， 设 X 的 可 能 值 是 2,…, 六 ， 记 它 
取 值 为 站 的 概率 为 疡 ， 即 


P 人 人 = 站 = Pi=12…,， 显 然 有 》 户 =1 
1 
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设 艺 , 交 ，, 克 是 从 总 体 世 中 抽取 的 简单 随机 样本 ，,…,2z 是 样本 观察 值 。 记 必 为 
xs 中 取 值 为 诗 的 个 数 ， 即 样本 中 出 现 事件 (X = 站 的 频数 。 由 大 数 定律 知道 ， 频 浆 是 
概率 的 反映 。 如 果 总 体 的 概率 分 布 的 确 是 Po,pz，……,Pno ， 那 么 ， 当 观察 个 数 7 越 来 越 大 


各 2 
时 ， 频 率 至 与 p, 之 间 的 差异 将 越 来 越 小 且 妇 = | 三 - po | 也 较 小 。 根 据 这 一 思想 ， 
开 一 人 人 \ 7 


卡尔 :皮尔 逊 提出 了 运用 统计 量 
吧 一 mpo) (5-1) 
世 7Di0 
米 反 映 它们 的 差异 程度 ， 式 〈5-1) 也 称 为 卡尔 :皮尔 逊 统 计 最 。 
定理 5-1 (K.Pearsn 定理 ) 当 Pio,P2o…Pno 是 总 体 的 真实 概率 分 布 时 ， 由 式 〈5-1) 
所 定义 的 统计 量 妇 渐进 服从 自由 度 为 严 -1 的 窜 分 布 ， 即 


ia mpo) 


更 2 
根据 这 个 定理 ， 当 样本 容量 足够 大 时 ， 人 -Zn-))， 
加] 和 
此 时 卡尔 .皮尔 逊 统计 量 的 值 一 般 比较 小 ， 因 此 ， 当 假设 友 : 户 =mm:， 矶 : 厅 关 机 
G=12…,m) ， 其 中 四 是 已 知 数 。 只 要 算出 观察 值 妇 -六 史 2o) 2 ， 对 于 给 定 的 显著 性 


i=! 
水 于 0<w <1， 由 袜 分 布 表 求 出 常数 好 (m-D， 使 
P{ 妇 > 检 (m-D)=a 
如 果 祝 兰 科 (mm-1D ， 则 拒绝 页 ， 即 认为 总 体 的 分 布 与 假设 鼠 , 中 的 分 布 有 显著 差异 ; 
若 如 < 拉 ( 和 -1 ， 则 接受 丙 ， 即 认为 总 体 的 分 布 与 假设 如 中 的 分 布 无 显著 差异 。 
现 用 入 检验 法 来 检验 性 别 有 无 歧视 问题 。 假 设 人 们 期 望 员 工 性 别 比 例 为 6 : 4， 即 男性 为 
120 人 ， 女 性 为 80 人 。 
假设 刀 , : 公司 对 员工 的 性 别 无 歧视 ， 计 算得 
2 _ (150 一 120)” (50 一 80)” 
! 120 80 
对 c =0.05 ， 查 好 分 布 表 得 2(2-D=3.841， 妇 > 好) ， 故 拒绝 互 | ， 说 明 有 了 明显 
差异 。 这 对 性 别 歧视 指控 提供 了 证 据 。 
下 面 举 例 说 明 好 拟 合 优 度 检 验 法 的 应 用 。 
【 例 5-15】 表 5-5 中 数据 是 200 个 零件 的 直径 X。 


=7.$+11.53=18.75 


表 5-5 ”200 个 零件 的 直径 数据 (单位 : cm) 











能 否 验证 直径 天 服 从 正 态 分 布 ? 
分 析 : 依 题 意 ， 检 验 的 假设 是 己  : 零件 直径 蕊 服从 正 态 分 布 N(p,a") 。 其 中 ， 参 数 
如" 均 未 知 。 因 此 ， 首 先 要 求 出 参数 pa 的 极 大 似 然 估 计 : 


Pioz = 工 》 zx (分 组 数据 的 样本 均值 ) 
i=1 


MK 到 


大 
Goe = 工 》 jz 一 As 《分 组 数据 的 样本 方差 ) 
fi=! 


然后 按照 以 下 步骤 进行 好 拟 合 优 度 检验 。 
其 实现 的 MATLAB 程序 代码 如 下 : 
G 输入 原始 数据 ， 并 求 分 布 参数 的 极 大 似 然 估计 。 


>> clcar alj; 
Xx=[2.25,2.35,2.45,2.55,2.65,2.75,2.85,2.95,3.05,3.15,3.25,3.35,3.45,3.55,3.65,3.75]; 
人 [34511 1217192624221913 13732]; 

n=Sumf 人 人; 

MU=sum(f*x)./n 

SIGMA=sqrt(sum(f*(x.^2)).jn-MU.^2) 


运行 程序 ， 输 出 如 下 : 


MU = 3.0087 
SIGMA = 0.3217 


根据 计算 结果 ， 检 验 的 原 假 设 修正 为 互 , : 丈 ~ N(3.009,0.32102?) 。 

人 样本 数据 分 组 。 

题目 给 出 的 数据 已 是 分 组 数据 ， 共 分 为 16 组 ， 且 每 组 的 频数 已 经 统计 出 。 但 是 ， 
组 数据 和 后 3 组 数据 的 频数 偏 小 ， 故 分 别 将 前 、 后 3 组 数据 进行 合并 ， 这 样 可 得 12 
据 。 这 12 组 数据 所 属 的 数据 组 的 区 间 边 界 值 如 下 。 


a=[]; 

for k=1:11 
aa=(X(2+k)+x(3+k))2; % 小 区 间 边 界 点 取 相 邻 两 个 数据 的 中 点 
a=[a.aal]; 

end 


a-[-infPainf， % 由 于 正 态 变量 在 整个 数 轴 上 取 值 ,最 小 边界 点 为 -oo ， 最 大 边界 点 为 +oo 
运行 程序 ， 输 出 如 下 : 


a= 
-LInf 

2.3000 
2.6000 
2.7000 
2.8000 
2.9000 





前 3 
组 数 
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3.0000 
3.1000 
3.2000 
3.3000 
3.4000 
3.5000 

Inf 


@) 统计 经 验 频数 。 
题目 已 经 给 出 经 验 频数 ， 只 需 分 别 合并 前 、 后 3 组 的 频数 。 


>> 个 [ 代 1)+ 娘 2)+ 娘 3), 代 4:13), 剑 14 亲信 15)+ 低 16)] 
运行 程序 ， 输 出 如 下 : 


人 = 





曲 计算 理论 频数 。 


>> PEST= 中 ]; 

for j=1:12 
pp=normcdfali+1),MU,SIGMA)-normcdfa(i),MU,SIGMA); 
PEST=[PEST,pp]; 

end 

THEF=n*PEST'" 


运行 程序 ， 输 出 如 下 : 


THEF = 

11.3794 

9.0111 
13.3332 
17.9247 
21.8947 
24.2992 
24.5027 
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22.4494 
18.6880 
14.1347 

9.7136 
12.6692 


加 计算 检验 统计 量 的 观测 值 。 
>> CHI2EST=sum((ETHEF).^2./THEF) 
运行 程序 ， 输 出 如 下 : 


CHI2EST = 
2.4184 


@@ 检验 决策 。 


k=12; 
[=2; 
alpha=0.05; 
d 仁 k-r-1; 
REFCR=chi2inv(1-alpha,df); % 丰 绝 域 临 价值 
p=1-chi2cdKCHI2EST,df); % 检 验 的 p 值 
了 CHI2EST>REFCR 
h=]; 
else 
h=0; 
end 
alpha,h,p 
stat=[k,cCHI2EST,.REFCR] 


运行 程序 ， 输 出 如 下 : 


alpha = 0.0500 


h= 0 
p = 0.9830 
Stat 一 


12.0000 2.0000 2.4184 ”16.9190 


计算 结果 表明 ， 在 显著 性 水 平 wc = 0.05 下 ，j=0 保留 原 假设 已 ， 即 福 拟 合 优 度 检 验 认 
为 零件 直径 藉 ~ N(3.009,0.1030) 。 最 小 显著 性 概率 p=0.9823 表明 ， 当 前 样本 数据 下 不 能 拒 
绝 原 假设 忌 , 的 置信 水 平 高 达 0.98。 

【 例 5-16】 在 20 天 内 ， 从 维尼 给 正常 生产 时 的 生产 报表 中 看 到 的 维尼 纶 纤 度 〈 纤 维 的 
粗细 程度 的 一 种 度量 ) 的 情况 ， 有 如 下 100 个 数据 。 

1.36.1.49,1.43,1.41,1.37,1.40,1.32,.1.43,1.47,1.39， 


1.41,1.36,1.40,1.34,1.42,1.42,1.45,1.35,1.42,1.39， 
1.44,1.42.1.39,1.42,1.42,1.30,1.34,1.42,1.37,.1.36， 


ER 





1.37,1.34,1.37,1.37,1.44,1.45,1.32,1.48,1.40,1.45， 
1.39.1.46.1.39,.1.53,1.36,1.48,1.40.1.39,1.38,1.40， 
1]1.36,1.45,1.50,1.43,1.38,1.43,1.41,1.48,1.39,1.45， 
1.37,1.37,1.39,1.45,1.31.1.41,1.44,1.44,1.42,1.42， 
1.35,.1.36,1.39,1.40,1.38,1.35,1.42,1.43,1.42,1.42， 
1.42,1.40,1.41,1.37,1.46.1.36,1.37,1.27,1.37,1.38， 
1.42,1.34,1.43,1.42,1.41,1.41.1.44,1.48,1.55,1.37， 


正常 情况 下 ， 维 尼 纶 纤 度 服从 正 态 分 布 。 试 根据 这 100 个 样本 数据 在 显著 性 水 平 c = 0.10 下 
验证 生产 是 正常 的 。 

分 析 : 这 是 一 个 正 态 拟 合 问题 。 检 验 的 原 假 设 是 防 : 维尼 纶 纤 度 天 服从 正 态 分 布 
N(pa") 。 其 中 ， 参 数 由 o 均 未 知 。 

其 实现 的 MATLAB 程序 代码 如 下 : 

GO 输入 原始 数据 ， 进 行 未 知 参 数 的 极 大 似 然 估计 。 





>> clear al]; 

load data. mat; % 预 先 编写 数据 文件 data.mat, 并 存放 在 当前 工作 路 径 下 
n=jlength(data); 

[MU,SIGMA]=normfit(data) 


运行 程序 ， 输 出 如 下 : 


MU = 1.4338 
SIGMA = 0.3043 


于 是 ， 检 验 假设 修正 为 乙 : 克 ~ N(1.4042,0.01782 ) 
@@ 样本 数据 分 组 。 


>> [fmedj=hist(data); 
F_MED=[f,med'] 


运行 程序 ， 和 输出 如 下 : 


F_ MED = 
99.0000 ”1.4270 
1.7410 
2.0550 
2.3690 
2.6830 
2.9970 
3.3110 
3.6250 
3.9390 
1.0000 ”4.2530 


利用 hist 函数 自动 分 为 10 分 组 ， 并 统计 各 组 频数 。 由 计算 结果 可 知 ， 前 3 组 数据 和 后 3 
组 数据 的 频数 偏 小 ， 故 分 别 将 前 、 后 3 组 数据 进行 合并 ， 这 样 可 得 6 组 数据 。 这 6 组 数据 所 


己 呈 吕 吕 呈 口号 








属 的 数据 组 的 区 间 边 界 值 如 下 : 


>> ar-[]; 

for k=1:5$ 
aa=(med(2+k)+med(3+k)X2; 
a=[a,aal]; 

end 

a=[-infa,inf' 


运行 程序 ， 输 出 如 下 : 


a = 
-Inf 

2.2120 
2.5260 
2.8400 
3.1540 
3.4680 

Inf 


@@) 统计 经 验 频数 。 


@@ 中 已 经 给 出 经 验 频数 ， 只 需 分 别 合并 前 、 后 3 组 的 频数 。 


>> 会 [ 代 ] )+ 代 2) 十 俯 3) 信 4:7)》, 信 8)+ 代 9)+ 食 10) 
运行 程序 ， 输 出 如 下 : 


f= 
99 


所 弓 


多 计算 理论 频数 。 


>> PEST=[]; 
for ij=1:6 


pp=normcdfa(i+1),MU,SIGMA)-normcdfa(i),MU,SIGMA); 


PEST=[PEST,pp]; 
end 
THEF=n*PEST" 
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0.0164 
0.0002 
0.0000 
0.0000 


@@ 计算 检验 统计 量 的 观测 值 。 
>> CHI2EST=sum((ETHEF).^2JTHEP) 
运行 程序 ， 输 出 如 下 : 


CHI2EST = 
8.6068e+008 


@@ 检验 决策 。 


>> k=6; 
I2; 
alpha=0.1; 
d 仁 k-r-]; 
REFCR=chi2inv(1-alpha,d0; % 砷 绝 域 临 宅 值 
p=1-chi2cdfCHI2EST,dD; % 检 验 的 p 值 
这 CHI2EST>REFCR 
h=]1; 
else 
h=0; 
end 
alpha,h,p,CHI2EST,REFCR 


运行 程序 ， 输 出 如 下 : 
alpha = 0.1000 
h = 1 
pP= 0 
CHLI2EST = 8.6068e+008 
REFCR = 6.2514 


计算 结果 表明 ， 在 显著 性 水 平 c = 0.10 下 ，F=1 保留 拒绝 原 假设 瑟 , ， 即 妇 拟 合 优 度 检 


验 不 认为 维尼 纶 纤 度 X ~ N(1.4042,0.0178:) 。 由 最 小 显著 性 概率 斑 0 表明 ， 当 前 样本 数据 下 
能 拒绝 原 假 设 ， 妃 | 具有 较 低 的 置信 水 平 。 





假设 变量 才 的 分 布 函数 F(x) 连续 但 未 知 ， 在 给 定 显著 性 水 平 we 下 ， 要 检验 假设 
2 Fo)= 而 (0 析 : 开关 后 人 
这 个 问题 可 以 用 X 拟 合 优 度 检 验 法 来 检验 。 


但 是 ， 和 拟 合 优 度 检验 的 实质 是 比较 样本 频率 二 与 理论 频率 房 = 而 (a)- 忆 (oa) 。 也 





就 是 说 ， 只 是 检验 了 。 


已 0: F(a)-Fa = 五 (@)- 万 (aa )， =12 

其 中 ，a 是 在 连续 变量 离散 化 的 区 间 划 分 过 程 中 得 到 的 。 也 就 是 说 ， 只 是 检验 了 在 区 间 
的 分 点 处 鼠 , 是 否 成 立 而 已 ， 这 样 导 致 了 纳 伪 风 险 的 增加 。 于 是 ， 人 们 转 而 研究 更 加 完善 的 
恰 验 方法 。 

早 在 20 世纪 30 年 代 初 ，KNonopos 对 分 布 拟 合 优 度 检 验 问 题 进 行 了 深入 的 研究 ， 得 
到 了 KMongoros 定理 ， 进 而 建立 了 分 布 拟 合 优 度 检验 问题 的 UNwogopos 检验 法 和 Cupuog 
检验 法 。 

1 长 wwoRopoB 检验 法 

KMonopoB 检验 法 也 是 比较 样本 经 验 函 数 已 (xz) 和 变量 分 布 函 数 五 (z) 的 。 但 它 不 是 在 
划分 的 区 间 . 上 考虑 已 (xz) 与 原 假设 的 分 布 函数 硬 (x) 之 间 的 偏差 ， 而 是 在 每 一 点 上 考虑 它们 之 
间 的 偏差 。 这 就 克服 了 字 检 验 法 依赖 于 区 间 划 分 的 缺点 ， 但 其 应 用 范围 要 罕 一 些 ， 仅 适应 
二 变量 的 分 布 函数 是 连续 函数 的 情形 。 

根据 KMonopoa 定理 ， 当 呈 充分 大 时 ， 样 本 经 验 分 布 函 数 已 (x) 是 变量 分 布 函数 古 (xz) 
的 很 好 近似 ， 瓦 (xz) 与 玉 (x) 的 偏差 一 般 不 应 太 大 。 开 wwokopog 用 无 (xz) 与 玉 (C0 之 间 的 偏差 
的 最 大 值 构造 一 个 统计 量 

及 = _sup | 太 (09 一 瓦 (9 


并 且 得 到 了 下 面 的 定理 。 
定理 5-2 (KUmwonopoe 定理 ) 设 和 ,Xp ~ 下 (Or (=12…)， 天 (为 连续 的 分 布 
函数 ， 在 F(z)= 厂 (xz) (已 知 ) 的 条 件 下 ， 有 


lim "2 < 二 | = 天 (x) 


wm 
其 中 
局 人 -24k2x: 
K(OD= 总 e ，xXx>0 
0， X 所 0 
称 为 及 inmMoRopoB 分 布 。 


根据 定理 5-2 检验 鼠 p : F(Co = 古 (O0)， 若 假定 豆 为 真 ， 则 当 半 充分 大 时 ， 检 验 统计 量 
忆 =_sup | 所 (9- 瓦 C9 的 值 一 般 应 该 比较 小 ， 若 书 的 值 较 大 ， 就 应 该 拒绝 i 。 于 是 ， 对 
给 定 的 显著 性 水 平 w ， 拒 绝 域 形式 为 刀 , >c ， 检 验 准 则 为 求 满足 条 件 PLD >c| 孔 为 真 }<c 
的 拒绝 域 临 界 值 c。 

记忆, > De 为 Kuwogopoa 分 布 的 上 侧 wx 分 位 数 ， 即 PLD,>D oj=a ， 则 
KUMoopos 检验 法 的 决策 法 则 是 : 根据 样本 数据 计算 出 检验 统计 量 忆 , 的 观测 值 ， 若 

人 当 刀 , >,, 时 ， 拒 绝 瑟 , ， 即 认为 下 (xz 关 瓦 (5 。 

@ 当 D<D 时 ， 接 受到 ， 即 认为 FooD)= 瓦 (Co 。 

应 用 了 uiwonopos 检验 法 ， 原 假设 吾 , : F(Co = 瓦 (9) 中 的 瓦 (xz) 的 参数 应 该 是 已 知 的 。 当 
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参数 未 知 时 ， 对 于 正 态 分 布 ， 可 用 参数 的 大 样本 估计 代替 ， 不 过 此 时 的 检验 是 近似 的 ， 且 显 
著 性 水 于 cx 在 0.1 一 0.2 之 间 为 宜 。 
下 面 概括 地 给 出 显著 性 水 平 ec 下 ， 用 开 Mogopos 检验 法 检验 假设 
已 0: FU)= 古 (人 而 : (说 地 万 () 
的 步 又。 其 中 ， 分 布 函数 F(x) 是 连续 函数 。 
G 样本 数据 排序 。 将 样本 数据 娩 ,zx， (通常 半 > S0 ) 按 由 小 到 大 的 次 序 排列 ， 得 
到 xi 乏 Xa) 乏 … 甩 Xi。 


人 求 出 经 验 分 布 函数 。 





区 坟 关 ) 


0， 
1 开 
玉 (D=120， xbSx<xtb(k=12…,m 一 ]) 
i=1 
开 无 之 六 让 


其 中 ，Y 为 样本 数据 xse [xxxrn) 的 频数 ， 且 》 =1。 
@@) 计算 检验 统计 量 局 , 的 值 。 





忆 GG)) ， 所 (Cn 





D,= sup |CO- 瓦 GO9|=max{ 局 (xsn)- 瓦 Co 间 。 其 中 ， 规 定 
已 (xD)=1。 

二 求 KUwoRoroa 分 布 的 上 侧 c 分 位 数 D，。， 当 半 >100 时， 常用 盖 ，。 近似 公式 如 下 ; 

忆 oso = 1.07/Vn ， 站 ,oo9o = 1.23/wVn ， 刀 ,o95 = 1.36/Wn ， 三 ,oo = 1.63/Vn 

@@ 检验 决策 

若 忆 ,>s， 则 拒绝 o ， 认 为 样本 数据 不 是 来 自理 论 分 布 书 (xz) 的 。 

若 忆 <D, se。， 则 接受 鼠 ， 认 为 样本 数据 是 来 自理 论 分 布 乓 (zx) 的 。 

2 Chphoe 检验 法 

CipHos 检验 法 是 对 有 wonopos 检验 法 的 一 种 推广 。 

设 六 和 一 CD) ， 世 六 也 一 GO (mm=12…)， 天 (co 和 G(z) 均 为 连续 的 分 
布 函 数 ，-oo <x< +Ho ， 在 显著 性 水 平 xc 下 ， 检 验 假设 

忆 : Fo=GO， :FozGOr) 
用 F(xz) 和 CG,(x) 分 别 表示 两 样本 的 经 验 分 布 函数 ， 用 它们 构造 检验 统计 量 
Duw = sup | 已 Oo-G(x 





Cwuon 证 明了 下 面 的 定理 。 
定理 5-3 (Kiwonoros -Cwpuos 定理 ) 当 矶 为 真 且 样本 容量 和 六 分 别 趋向 于 
时 ， 有 





疾 . 有 一 开 十 


lim 中 2 门 < 中 -ka 
717 





其 中 ， K(z) 是 KuiMoopos 分 布 函数 。 
根据 定理 5-3， 可 得 检验 砚 :Fe) = G(z) 的 Cuos 检验 法 则 《近似 ): 


@ 芳 D,>D,，。， 则 拒绝 局 ， 认 为 Fo 关 G(r) 。 
@@ 草 D， <D，。， 则 接受 局 ， 认 为 F(z)=G(x) 。 


在 应 用 中 ， 确 定 Kuvouoros 分 布 的 分 位 数 Di 时， 用 N =| -2 | 代替 前 述 分 位 数 近 
似 公式 中 的 出 计算 D。 的 观测 值 用 下 面 的 公式 : 
环 (xD)) 一 Cn Ga] 


其 中 ，x 为 划分 变量 值 域 的 第 字 个 小 区 间 的 组 中 值 。 

MATILAB 将 这 两 种 检验 方法 统称 为 KMokopog -Cupuoa 《英文 书写 为 Kolmogorov- 
Smirnov) 检验 ， 并 提供 了 两 个 检验 函数 kstest 和 kstest2 。 

(1 ) kstest 函数 

kstest 函数 用 于 大 样本 情 形 下 连续 变量 分 布 形态 的 拟 合 优 度 检 验 。 

其 调用 属 式 如 下 : 


[h,p,stats,cv]=kstest(x,cdfhalpha,tail) 


其 中 ， 输 入 参数 x 为 样本 数据 向 量 ，cdf 为 检验 的 原 假 设 所 指定 的 分 布 形 式 〈 具 体 引 用 
为 变量 的 累积 分 布 函数 ， 默 认 时 cd 人 []， 表 示 拟 合 标准 正 态 分 布 )，alpha 为 检验 的 显著 性 水 
平 〈 默 认 时 为 0.05)，tail 为 备 择 假设 类 型 的 标示 值 。 和 输出 参数 ， 为 检验 决策 ，P 为 拒绝 原 假 
设 的 最 小 显著 性 概率 ，stats 为 检验 统计 量 的 值 ，cv 为 拒绝 域 的 临界 值 。 

(2) kstest2 轴 数 

kstest2 函数 用 于 人 样本 情形 下 两 个 连续 变量 分 布 一 致 性 的 检验 。 

其 调用 格式 如 下 : 


[h, p, stats]=kstest2(x, y, alpha, tail) 


检验 的 原 假设 是 两 个 变量 服从 相同 的 分 布 。 和 输入 参数 x 和 分 别 为 两 个 样本 的 数据 向 
基 ， 其 他 输入 、 输 出 参数 的 意义 同 kstest 坝 数 。 

【 例 5-17】 在 显著 性 水 平 c = 0.10 下 ， 用 天 ,wogopos -CupHoe 检验 法 对 例 5-15 中 的 
维尼 纶 纤 度 数据 进行 正 态 性 检验 。 

其 实现 的 MATLAB 程序 代码 如 下 : 








站 mw = max 
Vi 


>>clear alj; 

load data 
[MU,SIGMA]=normfit(data) 
x=(data-MU)SIGMA; 
[hp,stats,cv]=kstest(x,[],0.1.0) 


运行 程序 ， 输 出 如 下 : 
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h = ] 


p= 6.3167e-014 
Stats 一 0.3897 
cy = 0.1207 


结果 表明 ， 接 受 原 假设 ， 即 认为 维尼 纶 纤 度 服从 均值 为 1.4338、 标 准 差 为 0.3043 的 正 
态 分 布 。 


扒 验 变量 是 耕 服 从 正 态 分 布 是 统计 应 用 中 最 常见 的 ， 也 是 最 重要 的 问题 。 此 类 问题 当然 
可 以 用 KUwwokoros -Caphop 检验 法 进行 ， 但 是 ， 由 于 受 样本 容 基因 素 的 影响 ， 有 时 检验 效 
果 可 能 全 理想 。 因 此 ， 人 们 发 现 了 一 些 专门 的 正 态 性 检验 方法 ， 其 检验 效果 一 般 比 通用 方法 
好 。 ee 常 用 的 正 态 性 检验 方法 。 

. 正 态 概率 纸 检验 法 

人 种 现场 统计 常用 的 判断 变量 正 态 性 的 简单 工具 ， 使 用 它 可 以 很 快 地 判断 
变量 是 骆 服 从 正 态 分 布 ， 还 能 够 粗略 地 估计 出 分 布 的 数字 特征 。 

首先 介绍 止 态 概率 纸 的 构造 原理 。 

设 变量 蕊 的 分 布 函数 为 (x) ， 需 要 检验 
局 :天 ~NOa)，-o<A<+toa2 >0 





在 原 假 设 已 ,成 立时 ， 一 -0U~NGO.D， 而 且 F(x) 可 用 标准 正 态 分 布 W(0,1D) 的 分 布 
函数 @(xz) 来 表示 
Fn)= o[ 妇 “ 名- CO() 


x= 二 (x 一 全 
在 xOy 直角 华 标 平面 上 ， 假 定 横 轴 〈x 轴 》 与 纵 轴 (z 辅 》 的 单位 长 度 相等 ， 函 数 
w= 过 (x-J 的 图 像 是 一 条 直线 ， 经 过 点 (00,0) ， 斜 率 为 1/c 。 


为 使 这 条 直线 能 够 直观 地 解释 变量 的 取 值 x 与 P{X 乏 对 之 间 的 关系 ， 进 行 如 下 坐标 刻 
度 更 新 : 在 直角 坐标 系 xOx 中 ， 保 持 横 轴 上 x 的 刻度 不 变 ， 而 把 纵 轴 上 z 的 刻度 更 新 为 
y=1000(x) ， 并 规定 100B(-oo) =0 ，100O(+oo) =100 。 这 样 就 将 直角 坐标 系 xOv 更 新 为 下 
角 坐 标 系 xOy 。 由 于 轴 上 的 刻度 0 与 100 分 别 对 应 & 轴 上 的 -mw 和 + ， 因 此 轴 上 无 法 
标示 出 0 与 100， 一 般 ” 轴 上 的 刻度 标示 限于 0.01 一 99.99 之 闻 。 称 以 直角 坐标 系 xOy 为 刻 
度 体系 的 坐标 纸 为 正 态 概 率 纸 。 

根据 正 态 概 率 纸 的 构造 原理 可 知 ，xOx 直角 坐标 系 中 x 与 x 的 关系 ， 在 xOy 直角 坐标 系 
中 就 成 为 x 与 y=100P{K 和 对 (=100F(xz)=100C(oO) 的 关系 ;反之 亦 然 。 特 别 对 于 正 态 概 率 


纸 上 的 一 条 直线 ， 若 该 直线 能 表示 为 zx = 二 (cx- 人 站， 则 100F(Co) 与 x 的 关系 为 











100F(x) =100C(zx) = iooo| “| 


即 
_ fx 
Fo9=el 二 | 


也 号 是 说 ， (xz) 是 一 个 正 态 分 布 的 分 布 函数 。 

这 表明 ， 止 态 概率 纸 上 斜率 存 在 且 大 于 零 的 全 体 直线 所 组 成 的 集合 与 全 体 正 态 分 布 函数 
所 组 成 的 正 态 分 布 族 之 间 存 在 一 一 对 应 关系 。 

2. Liliefors 检验 

Lilliefors 检验 法 是 对 开 , wogopros 检验 法 的 一 种 改进 。 

没入 ,和 ~ 克基 的 分 布 未 知 。 需 要 检验 


夺 : 夺 ~N(a)，-oo<AU<+toa2>0 


令 郊 = 二 > Xi ， S= 局， 2 = 一 G=12…m， 则 当 忌 为 真 时 ， 标 
二] | ， 


准 化 样本 Zi,Z2，……2Z,iid.~ N(0,D) ， 于 是 Konoros 统计 量 可 修正 为 
D,= sup |S Co 一 G(Co 


其 中 ，S,(x) 是 标准 化 样本 的 经 验 分 布 函 数 。 这 就 是 Lilliefors 检验 的 检验 统计 量 。 

其 他 如 检验 法 则 、 检 验 步 骤 等 与 KinMonopos 检验 法 类 似 ， 这 里 不 再 介绍 。 

由 Liliefors 检验 的 检验 统计 量 的 构造 特点 可 知 ， 该 方法 与 KMokopos 检验 法 最 大 的 不 
同 之 处 是 检验 不 需要 已 知 分 布 参数 ， 样 本 的 标准 化 避免 了 在 正 态 拟 合 优 度 检 验 之 前 对 分 布 参 
数 的 估计 ， 因 此 该 方法 可 在 小 样本 条 件 下 使 用 。 

MATILAB 提供 了 Lilliefors 检验 法 的 检验 函数 lillietest。 

其 调用 格式 如 下 ; 


[hp,stats,cv]=lillietest(x, alpha, taiD) 


其 输入 、 输 出 参数 的 意义 同 kstest 函数 。 
3. Jarque-Bera 检验 
Jarque-Bera 检验 是 一 种 常用 的 、 基 于 峰 度 与 偏 度 联合 检验 的 正 态 性 检验 方法 。 
设 六 ,区 和 一 三， 无 的 分 布 未 知 。 需 要 检验 
媚 : 于 ~N0o2)，-o<A<+oaz>0 
B 


令 忌 -过 -局 4 ，Jarque 和 Bera 由 样 本 风度 KU = 奢 和 样本 偏 度 SK = 定义 





了 如 下 的 检验 统计 量 : 
天 (天 U 以 一 3) 
让 二 外 se 二 Ce 


并 证 明了 在 鼠 , 为 真 的 条 件 下 ，v7 渐 近 地 服从 自由 度 为 2 的 和 分 布 。 


-假设 检验 





由 于 正 态 分 布 的 样本 峰 度 KU =3 ， 样 本 偏 度 SK = 0 ， 因 此 检验 统计 量 . 的 观测 值 越 大 
越 对 已, 不利。 于是， 对 于 给 定 的 显著 性 水 平 c ， 检 验 准则 为 PV > 你 (2)}< cx 。 当 检验 统 
计量 的 实测 值 J> 窍 (2) 时 ， 则 在 显著 性 水 平 < 下 拒绝 原 假 设 书 o ， 人 否则 保留 ro 。 _ 

由 于 检验 依据 是 渐 近 分 布 ， 因 此 该 方法 应 在 人 样本 条 件 下 使 用 。 >) 

MATLAB 提供 了 Jarque-Bera 检验 法 的 检验 函数 jbtest。 

其 调用 格式 如 下 : 





[h,p,stats,cv]=jbtest(x,alphatail) 


其 输入 、 输 出 参数 的 意义 同 kstest 函数 。 

【 例 5-18】 某 工 厂 生 产 一 种 白炽 灯 ， 其 流明 为 随机 变量 ， 假 设 上 满足 正 态 分 布 
Na2) ， 现 从 产品 中 随机 抽取 120 个 样本 ， 其 指标 〈 流 明 数 ) 如 下 ， 试 检验 正 态 分 布 的 候 
设 是 否 正确 。 


216,203,197,208,206,209,206,208,202,203,206,213,218,207,208,202,194,203,213,211 
193,213,208,208,204,206,204,206,208,209,213,203,206,207,196,201,208,207,213,208 
210,208,211,211,214.220,211,203,216,224,211,209,218,214,219,211,208,221,.211.218 
218,190,219,211,208,199,214,207,207,214,206,217,214,201,212,213,211,212,216,206 
210,216,204,221,208,209,214,214,199,204,211,201,216,211,209,208,209,202,211,207 
202,205,206,216,206,213,206,207,200,198,200,202,203,208,216,206,222,213,209,219 


其 实现 的 MATLAB 程序 代码 如 下 : 


>> clear all; 

x=[216,203,197,208,206,209,206,208,202,203,206,213,218,207,208,202,194,203,213,211，… 
193,213,208,208,204,206,204,206,208,209,213,203,206,207,196,201,208,207,213,208，…. 
210,208,.211,211,214,220,211,203,216,224,211,209,218,214,219,211,208,221,211,218，… 
218,190,219,211,208,199,214,207,207,214,206,217,214,201,212,213,211,212,216,206…. 
210,216,204,221,208,209,214,214,199,204,211,201,216,211,209,208,209,202,211,207,… 


202,205,206,216,206,.213,206,207,200,198,200,202,203,208,216,206,222,213,209,219]; 
[h,p]=jbtest(x,0.05) 


运行 程序 ， 输 出 如 下 : 


h = 0 
p= 0.5000 


确定 了 该 数据 为 正 态 分 布 数据 ， 则 可 以 直接 用 前 面 介 绍 的 正 态 分 布 拟 合 函数 normfit 求 
出 该 分 布 的 均值 、 方 差 及 其 置信 区 间 。 


>> [mul,sigl,mu_cisig_cil=normfit(x,0.05); 
mu=[mul,mu_ci 


运行 程序 ， 输 出 如 下 : 


mu 二 
208.8167 207.6737 ”209.9596 
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>> Sig=[sigl,sig_ci] 
运行 程序 ， 输 出 如 下 : 
Sjg = 
6.3232 5.6118 7.2428 


【 例 5-19】 在 显著 性 水 平 =0.10 下 ， 分 别 用 正 态 概率 纸 检 验 法 、Liliefors 检验 法 和 
Jarque-Bera 检验 法 对 例 5-15 中 的 维尼 纶 纤 度数 据 进行 正 态 性 检验 。 
其 实现 的 MATLAB 程序 代码 如 下 : 


>> clear all; 
Joad data 


(1) 正 态 概率 纸 检 验 法 
>> normplot(data) 


运行 程序 ， 效 果 如 图 5-1 所 示 。 














绘制 正 态 概率 纸 检 验 
0.997 广 一 -一 一 一 te 和 
0.98 上 -1 = 一 一 一 一 = i= 一 一 = 4 == 一 -一 下 = 一 -一 一 一 全 一 中 
0.98 ----F-…---! T -~ 瑟 ] 
0.95 上 ---:------- 上 +----- ~------ 竺 + 
0.90 上---?------ 下 而 洒 
| -4 
0.75 | | 有 | 
昌 050| | 
f 哩 ， 1 | 
锝 025 | -十 - 间 -------! 
0 上 -本 | 
0.05 | ~- 站 < 计 | 人 
明寺- 
0.003 上 =<- -=--- 
1.3 1.35 1.4 1.45 1.5 1.55 
数据 


图 5-1 正 态 概率 纸 检验 图 
(2) Lilliefors 检验 法 
> [LLL2]=-lillietestrdata 0.0 
运行 程序 ， 输 出 如 下 : 


L1= 1 
L2 = 0.0659 


(3) Jarque-Bera 检验 法 
>> [1.J2]=jbtest(data,0.1) 
运行 程序 ， 输 出 如 下 : 
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J2 = 0.2038 
从 岁 5-1 中 可 以 看 出 ，100 个 样本 数据 的 (xz ,100F(z)) 点 列 在 一 直线 附近 ， 故 可 认为 维 
尼 纶 纤 度 数据 来 自 正 态 分 布 。 从 网 5-1 中 可 以 粗略 地 估计 出 维尼 纶 纤 度 的 均值 约 为 1.4， 标 
准 差 约 为 1.45 - 1.4 = 0.05。 
Jarque-Bera 检验 法 的 结论 是 接受 维尼 纶 纤 度 服 从 正 态 分 布 的 假设 。 
值得 注意 的 是 ，Lilliefors 检验 法 得 到 的 结论 是 拒绝 维尼 纶 纤 度 服从 正 态 分 布 的 假设 ， 这 
是 由 于 样本 数据 的 标准 化 变换 ， 使 得 该 方法 对 异常 数据 〈 极 端 数 据 ) 反应 敏感 。 其 实 ， 若 注 
意 到 第 99 个 数据 xm =1.55 是 data 数据 集中 的 最 大 值 ， 从 正 态 概率 纸 检 验 的 图 形 中 可 以 看 出 
这 个 最 大 值 过 于 偏离 直线 = 二 (x 一 0 ， 所 以 me 是 一 个 异常 数据 。 若 从 data 数据 集中 删除 
这 个 数据 ， 重 新 进行 检验 ， 如 下 所 示 。 
>> data(99)=[; 
[h,p]=lilietest(data,0.1) 
运行 程序 ， 输 出 如 下 : 
h = 0 
p= 0.1662 


结果 表明 ， 剩 余 的 99 个 维尼 纶 纤 度 数据 是 来 自 正 态 分 布 的 ， 与 另外 两 种 检验 方法 的 结 






E 洒 


如 果 两 个 随机 变量 x 和 ?有 具有 相同 的 概率 分 布 ， 对 它们 各 进行 邑 次 测 最 ， 得 到 两 组 样本 
值 : 入 和 冯 "大 和 吃 ,]P， 四 

如 果 两 组 样本 值 之 间 不 存在 系统 误差 ， 那 么 出 现 > 多 与 出 现 x < 攻 的 机 会 是 相等 的 ， 
概率 各 为 1/2。 

统计 工具 箱 提 供 了 零 中 值 分 布 的 符号 检验 函数 signtest。 

其 调用 格式 如 下 : 


p=Signtest(X) 

p=signtest(xm) 

p=signtcst(xy) 

[p,h] = signtest(.…) 

[p,h] = signtest(...,alpha',alpha) 
[p,h] = signtest(...,method',method) 
[P,h,stats] = signtest(..) 


其 中 ，x，?y 是 分 析 的 样本 ; 闫 是 设 定 的 中 值 ; alpha 是 显著 性 水 平 ， method 为 实现 检验 
的 方法 。 

下 面 通过 举例 来 说 明 符 号 检验 法 的 应 用 。 

【 例 5-20】 零 中 值 分 布 的 符号 检验 。 











其 实现 的 MATLAB 程序 代码 如 下 : 


>> clear all; 

N=1024; %% 样 本 点 数 
xl=randn(1,N)  % 正 态 分 布 
% 假 设 检 验 

alpha0=0.05; 
[pl,hlj=signtest(x1,alpha0) 
%Weibull 分 布 
xX2=wblrnd(1,.2,N,1); 

% 实 现 的 假设 检验 
[p2,h2]=signtest(x2,aipha0) 
% 丙 个 样 木 的 差 


运行 程序 ， 输 出 如 下 : 


pl = 0.0749 
h 一 


1 
] 0 


即 接受 xl 来 自 于 零 中 值 的 分 布 。 


p2 = 1.6065e-222 
h2 = 1 


即 不 接受 x2 来 自 于 零 中 值 的 分 布 。 


p3= 4.318Se-087 
h3 = 1 


即 不 接受 xl 和 xz 的 差 服从 零 中 值 的 分 布 。 
秩 和 检验 法 

如 果 两 个 总 体 4, B 具有 相同 的 概率 分 布 ， 分 别 从 两 个 总 体 4 B 中 抽取 大 小 为 上 和 户 的 
样本 进行 测定 ， 得 到 两 组 测定 值 ，x,zsx 和 力 ,yp 。 

将 两 组 测定 值 混合 起 来 按 由 小 到 大 的 顺序 排列 ， 每 个 测定 值 在 序列 中 排列 的 次 序 ， 称 为 
该 测定 值 的 秩 。 一 组 样本 测定 值 中 各 测定 值 的 秩 的 总 和 ， 称 为 该 组 测定 值 的 秩 和 。 当 两 组 测 
定 值 中 某 个 值 相等 时 ， 其 秩 等 于 相应 两 个 测定 值 秩 的 平均 值 。 如 果 两 个 总 体 具 有 相同 的 概率 
分 布 ， 那 么 在 混合 排列 的 序列 中 第 ;个 序 次 为 测定 值 x 或 ”的 概率 是 相同 的 。 

统计 工具 箱 提供 了 两 个 样本 服从 同 中 值 分 布 的 秩 和 检验 函数 ranksum。 

其 调用 格式 如 下 ; 






p=ranksum(x,y) 

[p,h] = ranksum(x,y) 

[p,b] = ranksum(x,y,alpha'alpha) 
[ph] = ranksum(.…,"method',method) 
[p,hsstats] = ranksum(.…) 





统计 检验 方法 一 一 假设 检验 





其 中 ，x，y》 是 分 析 的 样本 ，alpha 是 显著 性 水 平 。P 为 返回 概率 ; A 为 返回 假设 检验 
结果 。 
F 而 通过 举例 来 说 明 秩 和 检验 法 的 应 用 。 
【 例 5-21】 两 个 样本 是 否 服从 同 中 值 分 布 的 秩 和 检验 。 > 
其 实现 的 MATLAB 程序 代码 如 下 : 


>> cjear all; 

N1=100; N2=150; % 样 木 点 数 
alpha0=0.05; 
x=unifrnd(0,1.N1,1); 
y=unifrnd(0.25,1.25,N2,1); 

% 假 设 检 验 
[pl,h1]=ranksum(x,y,alpha0) 
[p2,h2]j=ranksum(x,x,alpha0) 
[p3,h3]=ranksum(y,y,aipha0) 


运行 程序 ， 输 出 如 下 : 
plL= 2.9883e-010 
hl = 1 
即 不 接受 x 和 ?y 来 自 于 相同 中 值 的 分 布 ， 这 与 实际 是 一 致 的 ，x 和 来 自 于 同一 分 布 ， 但 参 
数 偏 移 0.25。 


Pp2 


名 一 怠 一 


p3 
h3 = 


即 接受 x 和 x，?y” 和 ?来 自 于 相同 中 值 的 分 布 ， 这 与 实际 是 一 致 的 。 








第 6 章 方差 分 析 及 曲线 拟 合 


方差 分 析 是 重要 的 、 应 用 广泛 的 实验 数据 统计 分 析 方法 ， 其 实质 是 检验 多 个 变量 均值 的 
一 致 性 。 山 寺 检 验 的 统计 推断 是 通过 讲解 实验 数据 的 变异 性 以 及 变异 的 来 源 作出 的 ， 而 统计 
分 析 刻 本 数据 变异 性 的 基本 统计 量 是 样本 方差 ， 因 此 ， 习 惯 上 称 这 种 多 变量 均值 一 致 性 的 假 
设 检验 为 方差 分 析 。 下 面 对 方差 分 析 及 曲线 拟 合作 介绍 。 


6.1 方差 分 析 的 相关 概念 
11 上 ae 省 


在 实际 中 ， 常 常 要 通过 实验 来 了 解 各 种 因素 对 产品 的 性 能 、 产 量 等 的 影响 ， 这 些 性 能 、 
产量 等 指标 统称 为 实验 指标 ， 而 称 影响 实验 指标 的 条 件 、 原 因 等 为 因素 或 因子 ， 称 因素 所 处 
的 不 同 状 态 为 水 平 。 各 因素 对 实验 指标 的 影响 一 般 是 不 同 的 ， 就 是 一 个 因素 的 不 同 的 水 平 对 
实验 指标 的 影响 往往 也 是 不 同 的 。 方 差分 析 就 是 通过 对 实验 数据 进行 分 析 ， 检 验方 差 相 同 的 
各 正 态 总 体 的 均值 是 否 相 等 ， 以 判断 各 因素 对 实验 指标 的 影响 是 否 显著 。 方 差分 析 按 影响 实 
验 指标 的 因素 的 个 数 分 为 单 因 素 方差 分 析 、 双 因素 方差 分 析 和 多 因素 方差 分 析 。 下 面 将 对 它 
们 展开 介绍 。 

在 实验 研究 中 ， 所 获得 的 实验 结果 (数据 ) 总 是 有 差异 的 ， 即 使 在 同一 条 件 下 重复 进行 
实验 ， 所 得 实验 数据 也 不 完全 一 样 ， 引 起 实验 数据 产生 差异 的 因素 很 多 ， 这 些 因 素 对 实 
验 数 据 的 影响 程度 也 是 不 同 的 ， 有 主 有 次 ， 有 大 有 小 。 通 常 ， 由 于 因素 变化 所 引起 的 数 
据 差异 称 为 条 件 误差 ， 它 决定 了 实验 结果 的 准确 度 。 在 实验 过 程 中 ， 由 于 一 系列 有 关 因 
素 的 细小 、 随 机 〔〈 人 偶然) 的 波动 而 形成 的 具有 相互 抵消 性 的 误差 称 为 随机 误差 ， 它 决定 
了 实验 结果 的 精密 度 。 
方差 分 析 的 必要 性 

在 前 面 介绍 中 ， 已 经 讲解 了 两 个 样本 均值 相等 的 假设 实验 问题 。 在 生产 实践 中 ， 经 常 遇 
到 多 个 样本 均值 是 否 相 等 的 问题 。 

【 例 6-1】 在 以 淀粉 为 原料 生产 葡萄 糖 的 过 程 中 ， 残 留 了 许多 糖蜜 ， 可 作为 生产 痪 
色 的 原料 。 在 生产 次 色 之 前 应 尽 可 能 彻底 除 杂 ， 以 保证 酱 色 质量 ， 为 此 对 除 杂 方法 进行 
选择 。 在 实验 中 选用 5 种 不 同 的 除 杂 方法 ， 每 种 方法 做 4 次 实验 ， 即 重复 4 次 ， 结 果 见 
表 6-1 所 示 。 











本 实验 的 目的 是 判断 不 同 的 除 杂 方法 对 除 杂 量 是 否 有 显著 影响 ， 以 便 确 定 最 佳 除 杂 方 
法 。 从 表 6-1 可 见 ， 各 次 实验 结果 是 参差 不 齐 的 。 可 以 认为 ， 同 一 除 杂 方法 重复 实验 得 到 的 
4 个 数据 的 差异 是 由 随机 误差 造成 的 ， 而 随机 误差 常常 是 服从 正 态 分 布 的 ， 这 时 除 杂 量 应 该 
有 一 个 理论 上 的 均值 。 而 对 不 同 的 除 杂 方法 ， 除 杂 量 应 该 有 一 个 不 同 的 均值 。 这 种 均值 之 间 
的 差异 是 由 除 杂 方法 的 不 同 造 成 的 。 于 是 可 以 认为 ，5 种 除 杂 方 法 下 所 得 数据 是 来 自 均值 不 
同 的 5 个 正 态 总 体 ， 且 由 于 实验 中 其 他 条 件 相对 稳定 ， 因 而 可 以 认为 每 个 总 体 的 方差 是 相同 
的 ， 即 5 个 总 体 具 有 方差 齐 性 。 这 样 ， 判 断 除 杂 方法 对 除 杂 效果 是 否 有 显著 影响 的 问题 ， 就 
转化 为 检验 5 个 具有 相同 方差 的 正 态 总 体 的 均值 是 否 相同 的 问题 了 ， 即 检验 假设 

友 : 册 = 和 = 和 = 人 三 M 
在 上 述 这 种 情况 下 ， 第 5 章 介绍 的 方法 不 再 适用 。 这 是 因为 : 1) 倘若 是 10 个 样本 ， 需 
K(K -1 


要 检验 : 向 = 启 , 由 = 由 =A0， 共 需 检验 一 7 =45 个 假设 ， 这 样 的 程序 非常 烦 


琐 。2) 样本 进行 两 两 比较 时 ， 只 能 由 2(a -DJ 个 自由 度 估计 样本 均值 、 标 准 误差 ， 而 不 能 由 
10(2 -1 个 自由 度 一 起 估计 ， 精 度 不 够 高 。3) 两 两 检验 会 随 着 样本 个 数 的 增加 而 大 大 增加 错 
误 的 可 能 性 。 比 如 ， 在 两 两 比较 中 cx 取 0.05，45 次 比较 的 结论 都 正确 的 概率 为 0.955 ， 至 少 
做 出 一 次 错误 的 结论 的 概率 为 1-0.95* = 0.9006 ， 这 时 的 检验 结果 已 经 很 不 可 靠 。 对 于 这 种 
多 个 总 体 样 本 均值 的 假设 检验 ， 需 采用 方差 分 析 方法 。 


方差 分 析 的 基本 思想 


方 着 分 析 的 实质 就 是 检验 多 个 正 态 总 体 的 均值 是 否 相等 。 那 么 如 何 检验 呢 ? 从 表 6-1 可 
见 ，20 个 数据 是 参差 不 齐 的 ， 数 据 波动 的 可 能 原因 来 自 两 个 方面 : 一 是 由 于 因素 的 水 平 不 
同 ， 即 除 杂 方法 不 同 造成 的 。 事 实 上 ，5 种 除 杂 方 法 下 的 数据 平均 值 乱 之 间 确 实 有 差异 。 二 
是 来 自 偶然 误差 ， 从 表 中 数据 可 见 ， 每 一 种 除 杂 方法 下 的 4 个 数据 虽然 是 相同 条 件 下 的 实验 
结果 ， 但 仍然 存在 差异 ， 这 是 由 实验 中 存在 的 偶然 因素 〈 例 如 ， 环 境 、 原 材料 成 分 、 测 试 技 
术 等 微小 而 随机 的 变化 ) 引起 的 。 这 里 ， 把 由 因素 的 水 平 变化 引起 的 实验 数据 波动 称 为 条 件 
误差 ;把 随机 因素 引起 的 实验 数据 波动 称 为 随机 误差 或 实验 误差 。 方 差分 析 就 是 把 实验 数据 
的 总 波动 分 解 为 两 个 部 分 ， 一 部 分 反映 由 条 件 误 差 引起 的 波动 ， 另 一 部 分 反映 由 实验 误差 引 
起 的 波动 。 亦 即 把 数据 的 总 偏差 平方 和 $7 分 解 为 反映 必然 性 的 各 个 因素 的 偏差 平方 和 
S4,Se,… 与 反映 偶然 性 的 偏差 平方 和 SS ， 并 计算 它们 的 平均 偏差 平方 和 。 再 将 两 者 进行 比 
较 ， 借 助 下 检验 法 ， 检 验 假 设 Bu : 由 = 如 =…， 从 而 确定 因素 对 实验 结果 的 影响 是 否 显 
著 。 也 就 是 说 ， 方 差分 析 所 分 析 的 并 非 方差 ， 而 是 研究 数据 间 的 变异 来 源 是 条 件 误差 还 是 随 








机 误差 。 

为 方便 说 明 方差 分 析 的 基本 思想 与 方法 ， 下 面 考查 一 个 简单 的 、 易 于 理解 的 例子 。 

【 例 6-2】 一 位 英语 教师 想 检 查 3 种 不 同 的 教学 方法 的 效果 ， 为 此 随机 选取 24 名 学 生 
并 把 他 们 分 成 3 组 ， 相 应 地 用 3 种 方法 教学 。 一 段 时 间 后 ， 这 位 教师 对 这 24 名 学 生 进 行 统 
着， 统考 成 绩 见 表 6-2。 试 问 在 显著 性 水 平 c= 0.05 下 ， 这 3 种 教学 方法 有 无 显 苦 性 差异 ? 


表 6-2 ”英语 成 绩 表 





表 6-2 中 ，4， 少 ， 胡 是 这 位 英语 教师 采用 的 不 同 教学 方法 ， 各 有 其 侧重 点 。 目 的 是 
判断 不 同 教学 方法 对 英语 学 习 成 绩 是 否 有 显著 影响 。 若 有 影响 ， 哪 一 种 教学 方法 好 ? 

容易 理解 ， 在 不 同 的 教学 方法 下 ， 学 生 的 英语 成 绩 可 能 是 不 同 的 ; 在 同一 种 方法 下 ， 不 
同学 生 的 英语 成 绩 也 可 能 是 不 同 的 。 也 就 是 说 ， 实 验 数据 是 有 差异 的 ， 而 差异 可 能 是 由 因素 
的 不 同 处 理 〈3 种 不 同 的 教学 方法 ) 引起 的 ， 这 种 差异 称 为 实验 数据 的 条 件 误差 ， 也 可 能 
是 由 随机 因素 《不 可 控制 或 不 可 预知 的 因素 ， 如 考试 时 的 环境 、 时 间 对 学 生 的 影响 ) 引起 
的 ， 这 种 差异 称 为 实验 数据 的 随机 误差 或 实验 误差 。 方 差分 析 的 主要 任务 就 是 推断 在 因素 
的 不 同 处 理 下 ， 响 应 变量 的 均值 (3 种 不 同 教学 方法 下 学 生 的 英语 平均 成 绩 ) 是 奋 一 致 ， 
而 进行 推断 的 基本 思想 就 是 分 析 实 验 数 据 的 差异 来 源 。 在 后 面 的 讲解 中 可 以 看 到 ， 其 中 关 
键 性 的 思想 方法 是 考查 实验 数据 的 偏差 平方 和 ， 并 设想 将 数据 总 的 偏差 平方 和 按照 产生 的 
原因 分 解 成 “总 偏差 平方 和 = 条 件 误差 平方 和 + 随机 误差 平方 和 ”， 然 后 进一步 比较 这 两 种 
偏差 平方 和 的 大 小 ， 按 照 一 定 的 统计 假设 检验 的 规则 确定 总 的 差异 〈 总 偏差 平方 和 ) 究竟 
是 由 条 件 误 差 〈 因 素 的 不 同 处 理 引起 的 偏差 平方 和 )， 还 是 随机 误差 〈 随 机 因素 引起 的 偏差 
平方 和 ) 决定 的 。 如 果实 验 数据 的 差异 是 由 条 件 误差 决定 的 ， 则 说 明 在 因素 的 不 同 处 理 下 
喇 应 变量 的 均值 是 不 同 的 ， 如 果 差 异 不 是 由 条 件 误 差 决 定 的 ， 则 在 因素 的 不 同 处 理 下 响应 
变量 的 均值 应 当 是 一 致 的 。 


6.2 ” 单 因素 方差 分 析 


单 因素 统计 模型 及 检验 方法 


1. 统计 模型 

例 6-2 中 所 考查 的 因素 只 有 一 个 ， 称 其 为 单 因素 试验 。 通 常 在 单 因素 试验 中 ， 设 因素 4 
有 /7 个 水 平 4, 二 4 〈 即 试验 中 有 > 个 处 理 )， 在 每 一 水 平 下 考查 的 指标 可 以 看 成 一 个 变 
量 。 现 有 7 个 水 平 ， 故 有 r 个 变量 。 为 简化 起 见 ， 需 要 给 出 若干 假定 ， 把 所 要 阿 答 的 问题 归 
结 为 一 个 统计 问题 ， 然 后 设法 解决 它 。 假 定 : 

1) 每 一 变量 均 服 从 正 态 分 析 。 
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2) 每 一 变量 的 方差 相同 。 

3) 从 ”个 变量 抽取 的 样本 相互 独立 。 

要 比较 各 个 变量 的 均值 是 否 一 致 ， 设 第 ;个 变量 的 均值 为 上 ， 那 么 就 要 检验 如 下 假设 : 

有 := 名 =… 和 = 全 
其 备 择 假设 为 
而 :Am 休 
其 中 ，Am,，… 鼎 不 全 相同 ， 通 常 互 可 以 省 略 不 写 。 

当 已 , 为 真 时 ， 称 因素 4 的 各 水 平 间 无 显著 差异 ， 简 称 因素 4 不 显著 〈 此 时 在 例 6-2 
中 ， 得 出 不 同 的 教学 方法 对 英语 学 习 成 绩 没 有 显著 影响 ); 当 思 不 为 真 时 ， 各 
A = 2,……r) 不 全 相同 ， 这 时 称 因素 4 的 各 水 平 间 有 显著 差异 ， 简 称 因素 4 显著 。 

用 于 检验 假设 忌 , 的 统计 方法 称 为 方差 分 析 法 ， 其 实质 上 是 检验 若干 个 具有 相同 方 关 的 
正 态 变 量 的 均值 是 否 相 等 的 一 种 统计 方法 。 在 所 考虑 的 因素 仅 有 一 个 的 场合 ， 称 为 单 因素 方 
差分 析 。 

为 检验 假设 书 , ， 需 要 对 每 一 变量 抽取 样本 。 这 些 样 本 可 以 通过 试验 或 某 种 观察 获得 。 
各 样本 间 还 是 相互 独立 的 。 为 方便 起 见 ， 本 章 对 样本 及 其 观察 值 都 用 符号 > 加 下 标 表示 ， 其 
含义 可 从 上 下 文理 解 。 设 第 ; 个 变量 对 应 容量 为 几 m 的 样本 区 ,vspn G=12)。 

在 尹 水 平 下 获得 的 六 与 占 不 会 总 是 一 致 的 ， 如 例 6-2 中 教学 方法 4 下 学 生 的 成 绩 也 不 
完全 相同 。 记 为 

5 三 蕊 一 他 
称 为 随机 误差 ， 从 而 有 
J 切 三 纯 十 岂 i 
称 上 式 为 态 的 数据 结构 式 ， 即 均值 为 上 的 变量 观察 值 六 可 看 成 是 由 其 均值 4 与 随机 误差 己 
登 加 而 产生 的 。 假 定 少 的 指标 考 服 从 N(po ) 分布 ， 则 有 上 ~ N(0,a”) 。 
综 上 ， 有 单 因素 方差 分 析 的 统计 模型 : 假定 
切 三 十 
6 ~ N(0,o2) 且 相互 独立 ， 
检验 假设 io : 和 = 如 =…= 贱 。 

为 了 能 更 仔细 地 描述 数据 ， 常 在 方差 分 析 模 型 中 引入 一 般 平均 与 效应 的 概念 。 称 诸 A 为 

加 权 平均 。 称 


52 (6-1 ) 


《= mp 


为 一 般 平均 ， 其 中 m 》 mm， 称 


i=1 





习 





G@i = 一 ATE=]12…7 
为 因素 4 的 第 水 平 的 主 效应 ， 也 简称 为 尹 的 效应 。 容 易 看 出 ， 效 应 间 有 如 下 关系 式 : 


>》， Miaji =0 
i=1 


在 上 述 记 号 下 ， 有 有 
上 后 三 人 十 人 
这 表明 第 ;个 总 体 的 均值 是 一 般 平 均 与 其 效应 的 稼 加 。 此 时 ， 单 因素 方差 分 析 的 统计 模型 可 
写成 
切 =A+ 本 十 Qi 


终 1 


>》 mai =(， 1 2 了， (6-2) 


= 
85 ~N(0o ) 上 且 相 二 独立 ， 
它 由 数据 结构 式 、 关 于 效应 的 约束 条 件 及 关于 误差 的 假定 3 部 分 组 成 。 在 上 述 模型 下 ， 所 要 
检验 的 假设 可 改写 成 
: al=a=…=a=0 
2. 检验 方法 
为 了 使 差异 的 大 小 能 定量 地 表示 出 来 ， 先 引入 如 下 若干 记录 。 


把 和 水 平 下 的 试验 数据 和 记 为 we = 区 ， 其 平均 值 记 为 豆 = 二 入 ， 册 力 的 数据 结构 
启 / 


式 可 知 ，y. 具有 如 下 结构 式 : 


力 一 邮 起 


其 中 ， 豆 = 了 ye。 
11 


1 =] 





把 所 有 数据 之 和 记 为 .= 多 yy ， 其 平均 值 记 为 了 = 艺 * ， 克 具有 如 下 结构 式 ， 


1=| | 


了 = HA+ 


萎 - 了 =( 放 一 芒 )+( 基 一刀 
其 中 ， 芒 -区 称 为 组 内 偏差 ， 仅 反映 随机 误差 
帮 - 天 =(U+5) 一 ( 打 + 豆 ) = 一 可 
而 元 -了 称 为 组 间 偏 差 ， 除 了 反映 随机 误差 外 ， 还 反映 了 第 i 个 水 平 效应 : 


志 - 了 = (+ 豆 )-(U+ 避 =a+ 可 -E 
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各 芒 间 总 的 差异 大 小 可 用 总 偏差 平方 和 SS7 表示 ; 


SST= yy 0 - 歼 
i=1 J=1 
由 随机 误差 引起 的 数据 间 的 差异 可 以 用 组 内 偏差 平方 和 表示 。 由 于 组 内 偏差 仅 反映 随机 
间 差 ， 故 也 把 组 内 偏差 平方 和 称 为 误差 偏差 平方 和 ， 记 为 SSE: 





ss5= 六 0 -万 ) 


i=1 三 ] 


由 于 组 问 偏差 除了 反映 随机 误差 外 ， 还 反映 了 效应 间 的 差异 ， 故 由 效应 不 同 引 起 的 数据 
差异 可 用 组 间 偏 差 平方 和 表示 ， 也 称 为 因素 4 的 偏差 平方 和 ， 记 为 SS4 


SS4 = 中 ( 太 - 姻 ” 


这 里 ， 每 一 项 乘 上 四 是 因为 第 :水平 有 mm 个 实验 数据 


定理 6-1 (平方 和 分 解 定理 1) .SS7=SS4+SSE。 
事实 上 


S3T = 六 0 - 歼 - 交 》 0 - 克 + 克 -下 


=1 /=! 1=1 /=l 


-六 2 0 -下 Pr+ 祥 并 Or - 下 +2 袜 和 0 - 克 ) 
i=1 /| =! J/=1 


i=1 /=1 
= SS +SS4 


由 于 》 (xy -元 )=0 ， 故 上 述 第 三 项 为 0。 
Jj=! 


由 模型 《6-2)〈 即 式 (6-2)) 可 知 各 sy 相互 独立 ， 且 中 ~ Na2) (=1L2 


了 =1,2……71) )， 故 
亏 ~n 人 0 : 生 ] 12,. 
711 
O2 
后 ~ v[o 守 ] 


人 = = 点 》 (ey 一 豆 )~ 扩 (mw -1 
C Jj=!1 CT Jel 
又 由 入 分 布 的 可 加 性 可 知 


本 党 - 间 二 ov- 六) 小 z| 衬 meo-n 


由 于 


到 | 


由 入 分布 的 性 质 知 








ECSSE) = (7 一 ma 


由 于 


SS4 = 》 由 (马刀 = 》 帮 (+ 束 一 下 
i 二 } 


| 
=》 mo2+》 用 列 一 0E2+2》 ndi( 瑟 一) 
i=1 = 1=1 
又 由 E( 芒 )=0，E(E)=0， 故 


六 六 六 六 2 2 
E(SS4) = 2 0 十 》 有 E(B) 一 ME(E2)=》 ma + 》 骨 一 广 ER 
人 =1 =] 三 ] i=] 


= ma + 一 la 


i=] 

从 上 面 的 分 析 过 程 中 可 得 如 下 定理 。 
定理 6-2 (平方 和 的 期 望 定理 ) ”在 一 个 因素 的 方差 分 析 模型 中 ， 有 

ECSSE)= (7 一 ra 

E(SS4) = ma + 一 Do 

1=! 
定理 6-3 (误差 偏差 平方 和 分 布 定 理 ) ”在 一 个 因素 的 方差 分 析 模型 中 ， 有 
生 玫 ~(n 一 让 


定理 6-4《〈 因 素 4 的 偏差 平方 和 分 布 定理 ) ”在 一 个 因素 的 方差 分 析 模 型 中 ， 当 假设 
Lo 为 真 时 ， 有 





2 到 j=e 
太一 ] 


5 
SSs4/(r-D 
SSE/(P 一 六 

因此 可 采用 统计 量 尸 来 检验 假设 砚 。 当 豆 为 假 时 ， 分 子 的 均值 要 比分 母 的 均值 大 ， 
因而 取 如 下 拒绝 域 


SS4 与 SSE 相互 独立 ， 且 已 = ~ 下 rr-1La-r。 


不 = 人 >e) 
是 合理 的 。 对 给 定 的 显著 性 水 平 g ，c 应 满足 

P(Ezc=a 
当 取 c= 下 ,Cr -1l2- 门 时 ， 便 有 PRE>cj=a， 故 得 拒绝 域 为 
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歼 ={ 忆 > 有 -27 


通常 把 以 上 求 统计 量 的 计算 列 成 一 张 表 格 ， 称 为 方差 分 析 表 〈 见 表 6-3)， 相 应 的 妇 分 
布 中 的 自由 度 也 列 于 表 中 ， 偏 差 平方 和 与 自由 度 的 比 称 为 均 方 和 。 


表 6-3 ” 单 因 素 方 差分 析 表 






下 = 镍 / 访 






ic | 
综 : 上 所 述 ， 单 因素 方差 分 析 的 步骤 如 下 。 
1) 依次 列 出 第 六 (=12……r) 个 变量 对 应 容量 为 m， 的 样本 pa， ， 确定 试验 中 因 






素 的 水 平 数 > 、 各 水 平 下 的 样本 容量 mm、 数据 总 数 m= y mn ， 问 时 明确 显著 性 水 平 c 。 


和 | 


2 计算 各 水 平 下 的 数据 和 思 = 六 芒 G=12…,7) 及 总 和 = 六 yn ， 计 算 各 数据 
/=! 


i=| /=] 
一 、 
力 平 方 之 和 2 驰 ， 在 此 基础 上 计算 区， 芭 


3) 利用 步骤 2) 中 的 结果 ， 计 算 SS7T，SS4 和 SSE。 其 中 


sr- 立 > -六 -六 2 四 


Im Ja i=1 /=I! 

六 三 2 2 
SS4 = 》 四 (及 -下 = 允 也 - 芝 

之 mi 了 ) 六 
SS = SS7T 一 SSd4 


4) 确定 自由 度 户 =r-1 和 产 =2-”， 计 算 各 类 均 方 和 瑟 =SS4/ 记 和 了 天 =SS4/ 广 ， 求 
出 检验 统计 量 已 = 态 / 大 ， 即 得 到 了 单 因素 方差 分 析 表 中 的 各 项 内 容 。 

5) 求 出 临界 值 五 (74, 产 ) ， 确 定 拒绝 域 太 ={ 忆 > 刀 (7 六 站。 若 忆 E 玉 ， 则 做 出 拒 
绝 原 假设 已, 的 结论 ; 和 否则， 接受 王 ,。 

或 者 由 最 小 显著 性 概率 忆 做 出 检验 决策 ， 当 疡 < c 时 拒绝 原 假 设 。 

对 于 例 6-2， 所 谓 方差 分 析 ， 即 检验 假设 襄 : Am = 几 = 上 滞 ， 其 中 由 (=12,.3) 是 第 i 个 
变量 的 均值 。 


其 实现 的 MATLAB 程序 代码 如 下 : 
>> %MATLAB 数据 处 理 (1) 
cjlear all; 
y=[73 66 89 82 43 80 63 88 78 91 76 85 94 80 96 68 79 71 71 87 68 59 76 80]; 
人 3; 
ml=7;:m2=8;m3=9; % 各 总 体 的 样本 容量 


n=ml+m2+m3; 











alpha=0.035; 
yl=sum(y(1:mlI)); 
y2=sum(y((m1l+1):(m1+m2))); 
y3=sum(y((m1+m2+1):n)); 
yY4=sum(y); 
yy=sum(y.^2); 
gF=y1l^2/m1+y2^2/m2+y3^2/m3; 
SST=yy-y4^2/n; 
SSA=8g-y4^2/n; 
SSE=SST-SSA; 
gl=SSA/r-l); 
8g2=SSE/(n-nD); 
FEST=g1l/g2; 
FLJ=finv(1-alphar-1,n-D; 
PpP=1-fcd8FEST,r-1n-n); 
ifEFEST>FLJ 

h=1， 
else 

h=0; 
end 
alpha,h,p,FEST,FLJ 


运行 程序 ， 输 出 如 下 : 


alpha = 0.0300 


h= 1 
p= ”0.0211 

FEST= 4.6638 
FLJ= 3.4668 





1. 效应 与 误差 方差 的 点 估计 
由 模型 《6-1》( 即 式 〈6-1)) 知 各 攻 相 互 独立 ， 因 而 可 用 极 大 似 然 估 计 法 求 出 各 效应 
与 ”的 估计 。 不 难 证 明 如 下 定理 。 
定理 6-5 (效应 与 误差 方差 的 点 估计 定理 ) 
话 = 交 应 = 万 ， 玫 = 下 一 六 研 2 


c" 的 无 偏差 估计 是 


证 明 略 。 


JJ 一 克 小 一 





% 第 一 种 教学 方法 下 学 生 的 成 绩 之 和 
% 第 二 种 教学 方法 下 学 生 的 成 绩 之 和 
% 第 三 种 教学 方法 下 学 生 的 成 绩 之 和 
% 各 学 生成 绩 之 和 

% 各 学 生成 绩 乎 方 之 和 


% 总 的 偏差 平方 和 

% 因 素 的 偏差 平方 和 

% 误 差 偏差 平方 和 

% 偶 差 均 方 和 

% 误 差 偏差 均 方 和 

% 由 样本 计算 出 的 F 值 

% 应 用 MATLAB 统计 工具 箱 中 的 finvy 函数 求 得 临界 值 


计算 结果 表明 ， 在 显著 性 水 平 w=0.05 下 ，j=1、Pp<alpha (拒绝 原 假 设 )， 即 认为 3 种 教 
学 方法 有 显著 差异 。 


SSE 


刀 2 





方差 分 析 及 曲线 拟 合 





2. 由 的 置信 水 平 为 1- c 的 置信 区 间 
利用 统计 量 法 ， 可 以 构造 睐 的 置信 区 间 。 


从 所 的 点 估计 区 出 发 ， 由 于 前 面 已 证 明 思 ~N| ,和 ， 又 有 旺 攻 ~ 22(2) ， 这 里 人 
广 =n-r ， 且 元 与 SSE 独立 ， 因 而 可 以 构造 一 个 服从 : 分布 的 统计 量 














一片 
BF 
11 3 一 
三 = = 一 一 一 ~ 上 大) 
SS 所 
加 
产 


因而 从 


可 得 扩 的 置信 水 平 为 1- c 的 置信 区 间 为 


权 从 -二 C 
[ER 
>- |S55 
这 里 ，C= 后 河 


【 例 6-3】 求 例 6-2 中 每 一 种 教学 方法 下 学 生平 均 炎 语 成 绩 的 点 估计 和 置信 水 平 为 0.95 
的 置信 区 间 。 


>> %MATLAB 数据 处 理 (2) 

clear all; 

alpha=0.05; 

ml=7;m2=8;m3=9; % 各 总 体 的 样本 容量 

n=ml+m2+m3; 

[=3; 

从 =n-r; 

y1=496; % 引 用 MATLAB 数据 处 理 (H) 中 的 结果 ,下 同 
y2=688; 

yY3=0659; 

MU1=yl/ml % 第 一 种 教学 方法 下 学 生平 均 英 语 成 绩 的 点 估计 
MU2=y2/m2 % 第 二 种 教学 方法 下 学 生平 均 英 语 成 绩 的 点 估计 
MU3=y3/m3 % 第 三 种 教学 方法 下 学 生平 均 英 语 成 绩 的 点 估计 “ 
T=tinv(1-alpha/2, 任 ); 

SSE=2.3404eH003; % 引 用 MATLAB 数据 处 理 (1) 中 的 结果 
SIGMA=sqrt(SSE/(n-D); 。”% 英 语 成 绩 标准 差 的 无 偏 估计 
a=[MU1-T*SIGMA/sqrt(m1),MU1+T*SIGMA/sqrttml)]; 
b=[MU2-T*SIGMA/sqrttm2),MU2+T*SIGMA/sqrt(m2)]; 
c=[MU3-T*SIGMA/sqrt(m3),MU3+T*SIGMA/sqrt(m3)]; 

ab,c ”%3 种 教学 方法 下 平均 英语 成 绩 的 置信 区 间 








运行 程序 ， 输 出 如 下 : 


MU1= 70.8571 
MU2 = 86 
MU3= 73.2222 
a = 

62.3592 ”79.1551 
b = 

78.2380 ”93.7620 


635.9041 ”80.5403 


计算 结果 表明 ，3 种 教学 方法 下 学 生 的 英语 成 绩 分 别 为 70.8571、86、73.2222; 置信 水 
平 为 0.95 的 置信 区 间 分 别 为 [62.5592 79.1551]，[78.2380 ”93.7620]，[65.9041 80.5403]。 


重复 数 相同 的 方差 分 析 
当 在 因素 4 的 每 一 水 平 下 重复 试验 次 数 相同 ， 即 当 略 = mw =…= 几 时 ， 上 述 一 些 表达 
式 可 以 简化 。 若 记 每 一 水 平 下 重复 次 数 为 由 ， 则 效应 约束 条 件 可 简化 为 


ya =0 
记 1 





SS4 的 计算 公式 可 简化 为 
二 于 2 mm 交 
SS4 = 9 


” 和 的 置信 水 平 为 1- c 的 置信 区 间 可 改 为 


区 -00 高 了 00 各 
其 他 一 切 都 不 变 。 对 于 重复 数 相同 的 单 因素 方差 分 析 ，MATLAB 提供 了 anoval 函数 来 处 理 
单 因 素 方差 分 析 的 问题 。anoval 函数 主要 是 比较 多 组 数据 的 均值 ， 然 后 返回 这 些 均 值 相 等 的 
概率 ， 从 而 判断 这 一 因素 是 否 对 试验 指标 有 显著 影响 。 
其 调用 格式 如 下 ; 

p=anoval(X) 

p=anoval(X,group) 

p= anoval(X,group,'displayopt) 

[p,table] = anoval(.…) 

[p,table,stats] = anoval(..) 


其 中 ，P = anoval00 对 样本 才 中 的 两 列 或 多 列 数据 进行 均衡 的 单 因素 方差 分 析 ， 以 比较 
各 列 的 均值 。 函 数 返回 “ 零 假 设 ”( 即 雹 中 各 列 的 均值 相同 ) 成 立 的 概率 值 。 如 果 概 率 值 接 
近 于 和 雪 ， 则 零 假 设 值得 怀疑 ， 表 明 各 列 的 均值 事实 上 是 不 同 的 。p = anovalCKgroup) 对 样本 万 
中 由 矢量 group 索引 的 两 组 或 多 组 数据 进行 单 因素 方差 分 析 以 比较 各 列 的 均值 。 输 入 参数 
group 标明 矢量 忒 中 相应 元 素 的 组 别 。group 中 的 值 为 整数 ， 最 大 值 为 需要 比较 的 不 同 组 的 
数量 ， 最 小 值 为 1。 每 组 至 少 应 有 一 个 元 素 ， 但 并 不 要 求 每 组 的 元 素 个 数 相 同 ， 因 此 适合 于 





CE 





数据 不 均衡 的 情况 。 用 于 决定 结果 是 否 具 有 统计 上 的 显著 性 的 概率 值 大 小 限制 的 选择 留 给 用 
户 。[pjtable,stats] = anoval(...)anoval 同时 还 显示 一 张 表 table 和 一 幅 图 stats。 表 为 标准 的 
ANOYVA 表 ， 表 中 将 蕊 中 数据 的 变化 分 别 分 成 两 部 分 : 

@D 由 各 列 均值 的 差异 而 产生 的 变化 。 二 

@@ 由 各 列 的 数据 及 其 均值 间 的 差异 而 导致 的 变化 。 

ANOVA 表 至 少 具 有 5 列 数据 。 

@ 第 一 列 标明 数据 源 。 

@ 第 二 列 给 出 数据 源 的 均 方 和 (SS)。 

@@ 第 三 列 给 出 相应 数据 源 的 自由 度 咏 

曲 第 四 列 给 出 均 方 值 P， 即 比率 SS/dy。 

图 第 五 列 给 出 已 统计 量 。 

疡 值 是 正 的 函数 (fcdf)。 随 着 下 的 增加 ，P 值 减 小 。 在 box 图 中 ， 各 列 数据 的 图 的 中 心 
线 若 表现 出 较 大 差异 ， 则 相应 于 尸 值 较 大 以 及 疡 值 较 小 。 

【 例 6-4】 忒 中 的 5 列 数据 分 别 为 1~5 的 常数 与 均值 为 0、 标 准 差 为 1 的 正 态 随机 干扰 
量 之 和 。 

其 实现 的 MATLAB 程序 代码 如 下 〈 结 果 见 图 6-1): 


>> X=meshgrid(1:3) 


久 = 
1 2 3 4 5 
1 2 3 4 5 
1 2 3 4 5$ 
1 2 3 4 5 
1 2 3 4 5 

>> X=X+normmd(0,1,5,5) 

X 三 


0.5674 3.1909 2.8133 4.1139 5.2944 
-0.6656 3.1892 3.7258 S.0668 3.6638 
1.1253 1.9624 2.4117 4.0593 5.7143 
1.2877 2.3273 35.1832 3.9044 6.6236 
-0.1465 2.1746 2.8636 3.1677 4.3082 
>> p=anoval(X) 
p= 1.276$e-006 


RE 
ANODVA Tabie 


有 上 旺 怕 7 prob 着 
s 62Z.4487 4 15.6122 19.186 1.276489e-005 

15-2792 26 0.814 

76.7279 24 





图 6-1 单 因素 方差 分 析 
al ANOVA 效果 表 ”bj box 效果 图 
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由 计算 结果 ， 观 察 所 提供 的 亏 的 随机 数据 样本 ， 可 知 其 各 列 均值 相同 的 概率 小 于 
6/105。 
【 例 6-5】 某 钢 厂 检 查 一 月 上 名 的 5 天 中 生产 的 钢锭 质量 ， 结 果 见 表 6-4。 





表 6-4 ” 某 钢 厂 生 产 的 钢锭 质量 〈 单 位: kg) 





试 检验 不 同日 期 生产 的 钢锭 有 无 显著 差异 〈c = 0.05 )。 

分 析 : 把 不 同日 期 生产 的 钢锭 质量 分 别 看 做 一 个 变量 。 检 验 它们 的 平均 质量 是 否 有 明显 
差异 相当 于 比较 5 个 变量 的 均值 是 否 一 致 。 假 定 : GD5 个 变量 均 服从 正 态 分 布 。 四 每 一 变量 
的 方差 相同 。@@ 从 5 个 变量 抽取 的 样本 相互 独立 。 采 用 方差 分 析 法 来 检验 不 同日 期 生产 的 钢 
锭 质量 是 否 有 明显 差异 。 

设 第 ?个 变量 的 均值 为 上 ， 假 设 不 同日 期 生产 的 钢锭 半 均 质量 无 显著 差异 ， 那 么 就 要 检 
验 如 下 假设 : 


上 := 上 = 内 = 册 = 从 
其 实现 的 MATLAB 程序 代码 如 下 : 


>> clear; 

Al1=[5500 5800 5740 5710]'; 
A2=[5$440 S680 5240 5600]'; 
A3=[5400 5410 5430 5400]'; 
A4=[5640 5700 5660 5700]'; 
A5=[5610 5700 610 5400]'; 
X=[Al1,A2,A3,A4,A5]; 
[ptable,statsj=anoval(X,[],on) 


运行 程序 ， 输 出 如 下 〈 上 见 图 6-2 ): 


p= 0.0220 
table = 
'Source' SS' df 。 'MS' 下 'Prob>F' | 
'Columns' [227680] [4 [ 56920] 。 [3.9496] [0.0220] 
'Error [216175] [15] [1.4412e+004] 0 
'Total' [443855] [19] [ 了 [县 
Stats 一 
gnames: [5Sxl char] 
n[44444] 


SOUIce: "anoyval' 
means: [5.687Se+003 5490 5410 5675 5580] 
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df 15 
S: 120.0486 
5800[ “村 >) 
5700 局 7 工 
下 上 四 到 史 
地 5500| 一 站 间 
54o0 | | = 二 
5300 机 
1 2 3 4 5 
列 数 


图 6-2 ”5 天 生产 钢锭 质量 的 box 图 


结果 表明 : GD 返回 值 z=0.0220<0.05， 认 为 不 同日 期 生产 的 钢锭 平均 质量 有 显著 差异 。 
@) 方 差分 析 表 〈table) 中 有 6 列 ， 第 一 列 声明 天 中 可 变化 性 的 来 源 ， 第 二 列 显示 平方 和 ;， 第 
三 列 显示 与 每 一 种 可 变化 有 关 的 自由 度 ; 第 四 列 显示 第 二 列 数据 与 第 三 列 数 据 的 比值 ;第 五 
列 显示 下 统 计量 数据 值 ， 是 第 四 列 数据 的 比值 ， 第 六 列 显 示 检 验 的 最 小 显著 性 概率 ， 即 第 一 
列 输出 参数 值 。@)stats 返回 的 附加 统计 数据 结构 中 means 一 行 给 出 了 各 日 生产 的 钢锭 平均 质 
基 的 点 估计 。@ 四 从 方差 分 析 box 图 容易 看 出 不 同日 期 生产 的 钢锭 平均 质量 之 间 的 直观 差异 。 


多重 tt 较 


若 检验 结果 拒绝 了 石 。 ， 进 一 步 分 析 哪 些 水 平 之 间 的 差异 是 显著 的 、 哪 些 水 平 对 实验 结 
果 的 影响 最 大 、 哪 些 水 平 次 之 ， 这 在 实际 应 用 中 往往 是 很 重要 的 。 此 项 工作 通常 称 为 均值 的 
多 重 比较 。 

对 任意 两 个 水 平均 值 之 间 有 无 显著 差异 进行 多 重 比较 ， 如 癌 时 检验 以 下 | 7 个 入 


局 Y 个 =Ai， 局 1 : 让 天 HE< = 2 


检验 的 统计 量 为 
你 一 万.) 


| 工 + 上 
访 太 


其 中 ， 果 = 3 。 对 于 丰 的 检验 水 平 ci ， 当 作 >4 纯 (一 站 时 拒绝 大 。 或 等 价 地 ， 当 秆 


一 


信 水 平 为 ni -2&)% 的 属性 置信 区 间 


mm 本 -1 1 
人 号 丰 二 7 


vv | 一 


不 包含 0 时 拒绝 五; ， 从 而 拒绝 如 。 
由 于 多 重 比较 所 进行 的 一 系列 检验 均 构 成 对 于 假设 的 检验 ， 因 此 要 使 得 所 有 检验 犯 第 一 





类 错误 的 总 概率 不 超过 给 定 的 w ， 就 需要 选取 适当 的 we 。 检 验 万 和 检验 鼠 ; 的 交 门 三 


1<i<jsr 


等 价 于 : 当 所 有 的 已; 成 立时 ， 忌 o 必 成 立 ， 反 之 亦 然 。 以 省 记 为 五 的 拒绝 域 ， 则 


P 和 拒绝 贡 1Z} = P{ 至 少 有 一 个 4 发 生 | 已 } 
=PL2 + 43+ 和 十 帮 | Pd) 


1Sisjsr 


< >》 P4 As] 


1<isjsr 


要 使 犯 第 一 类 错误 的 总 概率 己 拒 绝 太 | 玉 } < ww ， 只 要 取 “of [外 


甫 过 | ”个 均值 比较 检验 假设 已, 的 优点 是 它 不 仅 可 知 A,A，… 上 4 有 差别 ， 而 且 知道 


差别 在 哪 。 但 此 方法 计算 量 大 ， 同 时 由 于 要 保证 总 的 检验 水 平 ，c' 取得 比较 小 ， 从 而 一 般 来 
说 ， 比 起 直接 应 用 方差 分 析 ， 增 大 了 犯 第 二 类 错误 的 概率 ， 这 意味 痢 可 能 会 出 现 这 样 的 情 
形 : 用 挛 检 验 结果 是 显著 的 ， 但 用 两 两 比较 没有 任何 两 个 水 平 有 显著 差异 。 下 面 的 LSD 方 
法 在 某 种 程度 上 可 以 弥补 这 个 缺陷 ， 但 真实 水 平 是 近似 的 。 

LSD 方法 是 由 R.A.Fisher 提出 ， 又 经 过 后 人 修正 的 。 方 法 如 下 : 

人 给 定 检验 水 平 wc ， 用 方差 分 析 法 检验 已, 。 

@ 如 果 拒 绝 感 ， 则 继续 比较 水 平 之 间 的 差异 ， 和 否则 停止。 


@) 对 于 水 平 岂 7 ， 兴 与 的 最 小 显著 差异 为 
时 | 
ZSDi 三 直 s 广 ) | ( 二 


图 当 耽 - 玉 |>2SD) 时 ， 认 为 后 与 所 不同。 

【 例 6-6】 用 多 重 比较 的 方法 确定 例 6-2 中 哪些 水 平 之 问 的 差异 是 显著 的 ， 同 时 确定 使 
学 生 的 平均 英语 成 绩 最 高 的 教学 方法 。 

分 析 : 在 例 6-2 中 ， 已 经 得 出 3 种 教学 方法 有 显著 性 差异 ， 即 教学 方法 这 一 因素 对 学 生 
的 英语 成 绩 是 有 显著 影响 的 。 进 一 步 分 析 到 底 哪 两 种 教学 方法 对 学 生 的 成 绩 影 响 差异 显著 ， 
就 需要 对 3 个 变量 进行 多 重 比较 了 。 多 重 比较 的 方法 很 多 ， 按 照 上 面 介 绍 的 LSD 方法 ， 利 
用 MATLAB 计算 如 下 。 


%MATLAB 数据 处 理 (3) 

>> %MATLAB 数据 处 理 (2) 

clear all; 

alpha=0.05; 

ml=7;m2=8;m3=9; 9% 各 总 体 的 样 木 容量 
n=ml+m2+m3; 

呈 3; 

t=tinv(1-aljpha/2,n-m; 
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SSE=2.3404e+003; % 引 用 MATLAB 数据 处 理 (D) 中 的 结果 
LSD12=t*sqrt(SSE/(n-D)*sqrt(1/m1+L/m2); 
LSD13=t*sqrt(SSE/(n-D)*sqrt(1/ml+1m3); 
LSD23=t*sqrt(SSE/(n-D)*sqrt(lm2+1/m3); 
MU1=70.8571; % 引 用 MATLAB 数据 处 理 (2) 中 的 结果 ,下 同 
MU2=86; 
MU3=55.1111; 
ifabs(MU1-MU2)>LSD12 

h(1=1; 
else 

h(] 0; 
end 
ifabs(MU1-MU3)>=LSD13 

h(2 广 1; 
else 

h(2)=0; 
end 
ifabs(MU2-MU3)>=LSD23 

h(3 六 1; 
else 

h(G3 关 0; 
end 


h 。“% 结 果 , 依 次 显示 第 一 和 第 二 ,第 一 和 第 三 ,第 二 和 第 三 种 方法 下 ， 学 生平 均 成 绩 差 异 的 显著 必 
运行 程序 ， 输 出 如 下 : 


h = 





1 1 1 


计算 结果 表明 : 3 种 教学 方法 对 学 生 的 英语 平均 成 绩 的 影响 有 显著 差异 ;第 二 种 教学 方 
法 使 学 生 的 英语 平均 成 绩 最 高 。 


[EB3 方 二 者 性 梯 验 | 

在 单 因 素 方差 分 析 中 ， 假 定 r~ 个 不 同 水 平 下 的 响应 变量 服从 NU,a2) (=12…: 六 ， 并 
要 求 这 个 正 态 变量 的 方差 相等 ， 这 一 要 求 简称 为 方差 齐 性 。 一 般 而 言 ， 实 际 应 用 中 在 进行 
方差 分 析 之 前 ， 有 两 项 预备 性 分 析 是 不 可 缺少 的 。 一 是 这 个 变量 的 正 态 性 检验 〈 检 验方 法 
在 第 5 章 已 经 介绍 );， 二 是 这 ”个 正 态 变量 的 方差 齐 性 检验 。 


方差 齐 性 检验 的 假设 为 
: 只 =o=… 和 = 而: of=als=…=o 不 全 相等 
备 择 假设 往往 覆 去 不 写 。 
方差 齐 性 通常 采用 Bartlett 检验 方法 。 下 面 简单 介绍 Bartlett 检验 的 基本 思路 和 检验 统计 
量 的 构造 。 


设 第 ;个 变量 抽取 了 容量 为 略 的 样本 攻 ,yz，…Jim ， 其 样本 方差 为 





2 1 SR 一 \2 CO ， 
5 = 思 (及 一 万 ) = 了 2 
局 记 “ 


E 


其 中 ，@ = 0 - 现 ， 矿 = 由 -1 分别 为 该 变量 的 样本 偏差 平方 和 与 自由 度 。 于 是 ， 随 机 
i=]1 
误差 均 方 和 
-LSsSE -yo - 交 厂 
MSSE = 大 SS 大 之 9 之 六 
是 ~ 个 变量 样本 方差 s%"(Gi = 12,…,r) 的 加 权 算 术 平 均 数 。 又 令 


GMSSE -Te 站 下 


1=1 
是 r 个 变量 样本 方差 号 (f= 1.2,…,r) 的 几何 平均 数 ， 太 = 六 三。 
1=1 


由 于 恒 有 CHMSSE 答 MSSE ， 并 且 等 号 成 立 的 充分 必要 条 件 是 中 = 2=…=s2， 所 以 ， 
诸 样本 方差 % (=12,…,r) 间 的 差异 越 大 ，GMSSE 和 MSSE 的 差异 越 大 。 换 句 话说 ， 当 思 
为 真 时 ， 比 值 CMSSE/MSSE 接近 于 1。 反 之 ， 比 值 CMSSE/MSSE 比较 大 时 ， 已 值得 怀 
疑 。 这 个 结论 对 In(GMSSE/MSSE) 也 成 立 。 于 是 ， 也 的 拒绝 域 应 有 如 下 形式 ; 

丈 ={In(n(GUMSSE71MSSE)> 才 

Bartlett 证 明了 ， 在 大 样本 条 件 下 


8= 在 0nMSSE -mnGMSSE)~ Zr-D 
2 NE 大 一 般 

其 中 ， cr 2 全 显然 ， 般 情况 下 c>1。 

通常 ， 当 各 个 变量 的 样本 容量 m > 5G=12,…,r) 时 ， 也 可 以 用 统计 量 刀 作为 思 的 检验 
统计 量 。 在 显著 性 水 平 cc 下， 拒绝 域 为 

玉 = 避 > 好 -w-D} 
实际 计算 时 ， 检 验 统 计量 采用 
ptsa- 袜 aa 

的 形式 更 方便 一 些 。 

【 例 6-7】 对 例 6-2 中 3 种 教学 方法 下 学 生 的 英语 成 绩 这 3 个 变量 作 方差 齐 性 检验 。 

分 析 : 假设 页 : 咱 =o 史 =o， 即 3 个 变量 的 方差 相等 。 按照 上 述 结论 ， 分 别 求 得 
例 6-2 中 检验 统计 量 刀 的 值 和 本 题 的 拒绝 域 ， 经 过 比较 得 出 结论 。 


>> %MATLAB 数据 处 理 (4) 
clear all; 
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y=[73 66 89 82 43 80 63 88 78 91 76 85 94 80 96 68 79 71 71 87 68 59 76 80]; 
alpha=0.03; 
ml=7;m2=8;m3=9; % 各 总 体 的 样本 容量 
n=ml+m2+m3; 
[一 3; 
SSE=2.3404e+003; % 引 用 MATLAB 数据 处 理 (1) 中 的 结果 
n=ml+m2+m3; 
全 =n-r; 
c=(l/(m1l-1)+L(m2-1)+L(mn3-1)-UEE)XG*Cr-1D))+L 
sS1=var(y(1:ml)); 
s2=var(y((ml+1):(m1+m2)7); 
sS3=var(y((n-m3+1):n)); 
chi2EST=( 伍 *log(SSE/ 任 )-(m1-1)*#log(sUD)-(m2-1)#log(s2)-(m3-1)*#log(S3)Xyc; 
LJZ=chi2cdf1-alphar-1); 
pP=1-chi2cdfchi2EST,r-1); 
ifchi2EST>LJZ 
h=1，; 
else 
h=0; 
end 
alpha,h,p,chi2EST,LJZ 


运行 程序 ， 输 出 如 下 : 


alpha= 0.0500 


h= 1 

p= 0.1330 
chi2EST= 4.0348 
LIZ= 0.3781 


计算 结果 表明 ， 在 显著 性 水 平 o0.05 下 ，j=1、P>alpha 不 能 拒绝 原 假 设 ， 即 认为 3 种 
教学 方法 下 学 生 的 英语 成 绩 这 3 个 变量 的 方差 相等 。 

下 面 ， 对 单 因素 方差 分 析 的 应 用 步骤 总 结 如 下 。 

人 对 各 个 变量 〈 不 同 的 因素 水 平 ) 的 正 态 性 进行 检验 。 

@ 对 各 个 变量 的 方差 齐 性 进行 检验 〈 如 例 6-2 中 的 MATLAB 数据 处 理 (4))。 

@@ 当 各 个 变量 的 正 态 性 和 方差 齐 性 得 到 检验 后 ， 进 行 方差 分 析 〈 如 例 6-2 中 的 
MATLAB 数据 处 理 〈1))。 在 各 个 变量 的 正 态 性 和 方差 齐 性 没有 得 到 验证 的 情况 下 ， 严 格 地 
说 不 宜 再 作 方差 分 析 。 但 是 ， 有 关 研 究 表明 方差 分 析 的 到 统 计量 有 较 好 的 稳定 性 ， 即 使 正 态 
性 和 方差 齐 性 没有 得 到 验证 ， 也 可 以 进行 粗略 的 方差 分 析 以 供 参考 。 

几 在 方差 分 析 拒 绝 各 个 变量 的 均值 一 致 的 原 假 设 后 ， 应 进行 多 重 比较 〈 如 例 6-2 中 的 
MATLAB 数据 处 理 (3))。 

多 无 论 方差 分 析 是 否 拒绝 原 假设 ， 都 应 对 每 个 变量 的 均值 作出 估计 《〈 如 例 6-2 中 的 
MATLAB 数据 处 理 〈2) )。 











6.3 ” 双 因 素 方 差分 析 


上 面 讲 解 了 单 因素 实验 的 方差 分 析 问 题 ， 但 在 科研 和 生产 实践 中 ， 常 常 需要 同时 研究 两 
个 以 上 因素 对 实验 结果 的 影响 情况 。 若 同时 研究 两 个 因素 对 实验 结果 的 影响 ， 例 如 ， 研 究 不 
同 浸 提 温度 和 浸 提 时 间 对 茶叶 有 效 成 分 提取 的 影响 ， 就 要 对 两 个 实验 因素 进行 方差 分 析 。 对 
于 双 因 素 方差 分 析 ， 其 基本 思想 和 方法 与 单 因素 方差 分 析 相 似 ， 前 提 条 件 仍然 是 要 满足 独 
， 方 差 具 有 齐 性 、 正 态 。 不 同 的 是 ， 在 双 因素 实验 中 ， 有 可 能 出 现 交互 作用 。 按 照 是 否 进 
行 重复 实验 ， 双 因素 方差 分 析 又 分 为 两 种 ， 下 面 分 别 给予 介 绍 。 

双 因 素 无 重复 实验 的 方差 分 析 

1. 问题 的 一 般 提 法 

某 项 实验 要 同时 考察 因素 4 和 妃 对 实验 结果 的 影响 ， 因 此 4 取 4, 生 ,4 共 a 个 水 
平 ， 因 素 中 取 马 ,B……, 救 共 个 水 平 。4 和 有 两 因素 的 每 种 水 平 措 配 4B， (= 2,…,ai; 
J=12…,p) 各 进行 一 次 独立 实验 ， 共 进行 axb=7 次 实验 ， 实 验 数 据 为 
(=12…,a7=12…,b) ， 这 半 个 实验 数据 见 表 6-5。 





表 6-5 双 因 素 无 重复 实验 的 数据 及 计算 表 





要 求 分 别 检验 因素 4 ， 刀 对 实验 结果 有 无 显著 影响 ， 即 检验 假设 
玉 o : 因素 4 无 显著 影响 
Zro : 因素 B 无 显著 影响 


2. 双 因 素 无 重复 实验 的 方差 分 析 步 骤 
《1) 偏差 平方 和 的 分 解 
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为 了 构造 检验 统计 量 ， 仿 照 单 因素 方差 分 析 方法 ， 先 对 仿 莽 平方 和 进行 分 解 。 


也 由 
= ( 翅 . - 元 .) 六 (了 -到 ) +》》( 芒 一 志 一 元) 二 五 ) (6-3) 





了 书 Q 国 
=5》 人 ( 亏 二 元 +a》 人 -元 ) 十 >》 (已 一 歼 一 元 ) 十 玉 ) 
i=1 Jj=l =}] /=1 
令 
84 -by ( 志 一 元 (6-4) 
| 
S 为 因素 4 各 水 平 间 ， 即 各 行 间 的 偏差 平方 和 ， 反 映 了 因素 4 对 实验 结果 的 影响 。 
令 
忆 
Se =ay》 ( 却 ) 一 却 ) (6-5) 
j=1 
Ss 为 因素 下 各 水 平 间 ， 即 各 列 间 的 偏差 平方 和 ， 反 映 了 因素 下 对 实验 结果 的 影响 。 
令 
如 力 
3.=》》'( 切 一 五 一 互 /+ 五 (6-6) 


i=1 /=1 
S.。 为 误差 偏差 平方 和 ， 即 组 内 偏差 平方 和 ， 反 映 了 实验 误差 的 大 小 。 
于 是 式 (6-3) 可 记 为 


Sr =S4+Se+S。 《6-7) 
(2) 偏差 平方 和 的 简化 计算 
0 pb g 力 
S =》》( 国 -元 六 =》》 允 - 工 双 =-Cr (6-8) 
F】 户 ] i=l /=! 
S4 =0》 (到 -元 = 六 邓 - 友 =O4-Cr (6-9) 
1=1| 这 1 
2 _ 1 好 1 
Se =a2 (元 - 互 ) = 二 蕊 - 妆 = 一 Cr (6-10) 
/=:; /=1 
S. =ST -SS (6-11) 


《3) 计算 自由 度 和 方差 
Sr 的 自由 度 : 万 =ap-1=7m-1 








Sy 的 自由 度 : /=a-1 


Se 的 自由 度 : 万 =b-1 

S. 的 自由 度 : 大 = 万 -万 - 态 =(a-1D-D 

将 各 偏差 平方 和 除 以 相应 的 自由 度 ， 可 求 得 各 行 间 、 各 列 间 和 误差 的 方差 如 下 : 
行 间 方差 





S， 了 加 
= 子 = (6-12) 
列 问 方差 
_ Se Se _ 
= (6-13) 
误差 方差 
S S 
二 一 二 一 一 (6-14) 
ETPT 
(4) 显著 性 检验 
数学 上 可 以 证 明 : 假设 已。 为 真 时 ， 统 计量 
人 S,/(a- 
忆 = 六 = 放 ea-P[o-D(o-DG- 《6-15) 
假设 Au 为 真 时 ， 统 计量 
“ 态 0 (6-16) 


So- -1 


因此 ， 利 用 己 与 应 就 可 以 分 别 对 因素 4 和 有 作用 的 显著 性 进行 检验 。 对 于 给 定 的 显著 
性 水 平 gc ， 在 相应 的 自由 度 下 查 出 已 。 和 已,，， 荐 已 > 户 ，， 拒 绝 太 | ， 反 之 ， 则 接受 
贞 ; 若 应 > 羽 ,， 则 拒绝 不, ， 反 之 ， 则 接受 妃 ，。 


6.3.2 双 因 素 重 复 实验 的 方差 分 析 ] 
求解 双 因 素 方差 分 析 问 题 的 MATLAB 统计 学 工具 箱 函数 为 anova2。 
其 调用 格式 如 下 : 


了 = anova2(X, reps) 

p = anova2(X,reps, displayopt) 
[p,table] = anova2(..) 
[p,table,stats] = anova2(.…) 


其 中 ， 双 因素 方差 分 析 是 一 种 两 因素 、 多 水 平 析 因 试验 数据 的 统计 分 析 方法 。 其 目的 在 

于 确认 来 自 不 同 组 的 数据 是 否 具 有 相同 的 均值 。 
假设 一 个 汽车 制造 公司 有 两 个 工厂 ， 都 分 别 制造 3 种 汽车 。 下 面 来 考察 汽车 的 燃气 
里 程 〈 即 每 升 汽油 所 跑 里 程 数 ) 随 汽车 种 类 和 工厂 不 同 而 变化 的 情况 。 由 于 工厂 制造 方 
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法 的 差异 ， 使 燃气 里 程 有 总 体 的 差别 ;由 于 设计 规定 的 差异 ， 不 同 种 类 汽车 的 燃气 里 程 
也 可 能 不 同 。 另 外 ， 人 制造 方法 和 设计 规定 二 者 之 间 也 可 能 存在 综合 效应 ， 从 而 影响 汽车 
的 燃气 里 程 。 因 此 ， 除 非 对 工厂 和 汽车 种 类 相 结合 进行 观察 ， 和 否则 不 可 能 观测 到 交互 作 
用 。 
妈 因 素 方差 分 析 是 处 理 这 种 问题 的 典型 方法 。 首 先 建立 问题 的 数学 模型 : 
J 丰 =A+C 十 厅 十 困 十 EM 

式 中 ， 吕 是 观测 值 矩阵 ， 双 是 样本 总 均值 〈 常 数 均值 );，w, 是 列 元 素 为 组 均值 的 矩阵 〈 各 
行 c 的 总 和 为 0)， 有 万 是 行 元 素 为 组 均值 的 矩阵 〈 各 列 B 的 总 和 为 0); 7] 是 交互 作用 项 〈 和 拖 
阵 )〈 各 行 、 各 列 y 的 总 和 为 0);， sx 是 随机 干扰 矩阵 。 
返回 “ 零 假 设 ”( 即 列 数据 的 均值 与 行 数据 的 均值 相同 ) 成 立 的 概率 值 p 。 如 果 概 率 值 接近 
于 零 ， 则 假设 值得 怀疑 。 用 于 决定 结果 是 否 有 统计 上 的 显著 性 的 概率 值 限 制 的 选择 留 给 用 
户 。 通 常 认为 ， 如 果 疡 值 小 于 0.05 或 0.1， 则 结果 较 显 著 ， 同 时 也 显示 一 个 标准 方差 分 析 表 
(ANOVA 表 )。 其 中 ， 按 照 reps 参数 值 将 x 中 数据 的 变化 情况 分 成 3 部 分 或 4 部 分 。 

GO 由 各 列 均值 差异 而 产生 的 变化 。 

@) 出 各行 均 值 差异 而 产生 的 变化 。 

全 由 列 和 行 因素 的 交互 作用 而 导致 的 变化 〈 如 果 reps 值 大 于 其 默认 值 1 )。 

由 其 他 因素 。 

ANOVA 表 共 有 5 列 数据 ; 

GO 第 一 列 标明 数据 源 。 

@@ 第 一 列 给 出 相应 数据 源 的 均 方 和 (SS )。 

多 第 三 列 给 出 相应 数据 源 的 自由 度 咏 

人 由 第 四 列 给 出 均 方 值 ， 即 比率 swdj。 

图 第 五 列 给 出 已 统计 量 ， 即 均 方 比 。 
疡 值 是 环 的 函数 〈fecdf)。 随 着 书 值 的 增加 ，P 值 减少 。 

【 例 6-8】 双 因 素 方差 分 析 。 


>> load popcormn 


Popcorn 
p=anova2(popcorm3) 


运行 程序 ， 输 出 如 下 〈 效 果 见 图 6-3 ): 


popcorn = 
5.5000 ”4.5000 ”3.5000 
5.5000 ”4.5000 ”4.0000 
6.0000 ”4.0000 ”3.0000 
6.5000 5$.0000 4.0000 
7.0000 ”5.5000 5.0000 
7.0000 ”5.0000 ”4.5000 


0.0000 0.0001 0.7462 
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Fire 1 Two wa AND 
ait 摧 we Jasert Tools Dasktoepg 和 indow elp 
RNOVA Tabie 


0D0.04167 
0.13885 





图 6-3 双 因 素 方差 分 析 


【 例 6-9】 为 了 考察 固化 时 间 及 固化 温度 对 胶 黏 剂 粘 接 材 料 强 度 的 影响 ， 进 行 了 12 次 试 
验 之 后 得 到 的 结果 见 表 6-6， 要 求 分 析 固 化 时 间 和 固化 温度 的 不 同 是 否 对 钼 接 强度 有 显著 影响 。 


表 6-6 不 同 固化 时 间 、 温 度 下 的 粘 接 强度 





其 实现 的 MATLAB 程序 代码 如 下 : 


>> xX=[S2.3 58.9 83.6 85.3 115.6 112.9; 
136.8 132.1 157.3 1S3.4 187.9 185.2; 
230.5 224.8 260.4 264.8 323.8 329.9]'; 

anova2(X,2) 


运行 程序 ， 输 出 如 下 (效果 见 图 6-4): 


ans 一 
1.0e-004 * 
0.0000 0.0000 0.1794 


PiRUFECE 23 Two 一 way7 上 ROYA 
iie ait 瑟 ey DTnsart Tools Desktop 时 indeow ely 
ANOVATable 


53573.4 5146-037 -72085e-014 

7437.9 714.45 2Z1424e-01L0 

360.2Z 34.6 - 79364e-005 
10. 绎 





图 6-4 方差 分 析 表 
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[ 碟 鲍 * 因 表 方 差分 析 | 

多 因素 方 益 分 析 可 以 用 于 确定 根据 多 个 因素 划分 的 不 同 组 数据 的 均值 是 否 不 同 。 如 果 它 
们 不 同 ， 还 可 以 进一步 确定 这 种 差异 是 由 哪 一 个 或 几 个 因素 引起 的 。 

多 因素 方差 分 析 是 两 因素 方差 分 析 的 一 般 形 式 。 对 3 个 因素 的 情况 ， 其 模型 表达 式 
为 : 

J 交 =AL+Q 二 .+ 了 (2D) 记 十 (CNJi 二 (DBN) 十 (CON) 六 十 E 

式 中 ， 两 个 连 在 一 起 的 标记 《〈 如 (cP)j. ) 表示 两 个 因素 之 间 的 交互 作用 ， 参 数 (wyz) 办 表示 3 
个 因素 之 间 的 交互 作用 。 

MATLAB 统计 工具 箱 实现 多 因素 方差 分 析 的 函数 为 anovan。 

其 调用 格式 如 下 : 


p=anovan(X,group) 

p = anovan(X,group, model) 

p= anovan(X,group,model',sstype) 
p=anovan(X,group,model',sstype, gnames) 
p=anovan(X,group,mode',sstype,gnames,'djsplayopt) 
[p,table]=anovan(.…) 

[p,table,stats] = anovan(...) 

[p,table,stats,terms] = anovan(.…) 


anovan 函数 用 于 实现 多 因素 方差 分 析 。 其 中 ，X 是 分 析 的 数据 矩阵 ，group 是 组 的 索 
引 ，'model' 是 模型 的 类 型 ，model= linear ' 表 示 仅 仅 计 算 N 个 因素 的 假设 检验 ， 
Imodel=interaction' 表 示 计 算 N 个 因素 及 任意 两 个 因素 之 间 的 假设 检验 ，'model=full 表 示 计 算 
N 个 因素 及 不 同 水 平 之 间 的 假设 检验 ; sstype 是 平方 和 的 类 型 ，'"displayopt=on' 显 示 ANOVA 
表 和 图 ，'displayopt=off' 则 不 显示 ，P 返回 假设 检验 结果 ; table 返回 ANOVA 表 ; stats 返回 
一 个 结构 ， 可 用 于 进一步 的 多 比较 分 析 ; terms 返回 输出 向 量 的 编码 。 

其 相关 函数 有 : anvoal、anova2、multcompare。 

例如 ， 在 MATLAB 命令 行 输入 : 


>>y = [$2.7 $7.5 45.9 44.5 53.0 57.0 45.9 44.0] ; 
gl=[12121212]; 

全 三 站 hiyhiylo;lo': hi bi;lo3lo' }; 

83 ={fmay'; may'; may'; may'; june; june'; june'; june'}; 


p= anovan(y, {gl 82 83}) 
运行 程序 ， 输 出 如 下 《效果 见 图 6-5): 


p= 
0.4174 
0.0028 
0.9140 
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图 6-5 anvoan 函数 效果 示例 
【 例 6-10】 分 析 3 个 因素 : 出 产地 (A: 欧洲 、 日 本 或 美国 )、 是 否 为 四 和 仙 的 (B) 及 
时 间 〈C) 对 汽车 里 程 的 影响 是 省 显 著 。 
其 实现 的 MATLAB 程序 代码 如 下 : 





>> clear all; 
% 装 载 数 殷 
load carbig 
whos 
%3 个 因素 
factornames={fOrigin',"4Cyl,,MfgDate'"}; 
% 多 因素 方差 分 析 
[p,tbl,stats,termvecj]=anovan(MPG,{forg cyl4 when},2,3,factornames); 
p,termyvec 
运行 程序 ， 输 出 如 下 : 
Name Size Bytes Class Attributes 
Acceleration 406x1 3248 double 
Cylinders 406x1 3248 double 
Displacement 406xl 3248 double 
Horsepower 406x1 3248 double 
MPG 406x1 3248 double 
Model 406x36 29232 char 
Model Year 406x] 3248 double 
Origin 406x7 5684 char 
Weight 406x1 3248 double 
cyl4 406x5 4060 char 
org 406x7 3684 char 
when 406x5 4060 char 
假设 结果 为 : 
p= 
0.0000 
0 
0 
0.6422 
0.0001 
0.3348 


输出 向 量 的 编码 为 : 





方差 分 析 及 曲线 拟 合 





termyvec 二 
1 0 0 
0 ] 0 
0 0 1 
1 1 0 
1 0 ] 
0 1 ] 


第 一 行 表 示 的 第 一 个 值 对 应 第 一 个 因素 影响 的 假设 检验 ， 第 二 行 表示 尼 的 第 二 个 值 对 
应 第 二 个 因素 影响 的 假设 检验 ， 第 三 行 表示 P 的 第 三 个 值 对 应 第 三 个 因素 影响 的 假设 检验 ， 
第 四 行 表示 的 第 四 个 值 对 应 第 一 个 和 第 二 个 因素 相互 作用 影响 的 假设 检验 ， 第 五 行 表 示 
的 第 五 个 值 对 应 第 一 和 第 三 个 因素 相互 作用 影响 的 假设 检验 。 第 六 行 表 示 P 的 第 六 个 值 对 应 
第 二 和 第 三 个 因素 相互 作用 影响 的 假设 检验 。 

3 个 因素 的 方差 分 析 表 如 图 6-6 所 示 。 由 疡 值 可 知 : 它 的 第 一 、 第 二 、 第 三 和 第 五 个 元 
素 值 接近 十 零 ， 这 说 明 3 个 因素 及 第 一 与 第 三 个 因素 的 相互 作用 对 汽车 里 程 的 影响 较 显 著 ; 
它 的 第 四 和 第 六 个 元 素 值 大 于 零 ， 这 说 明 第 一 个 与 第 二 个 因素 的 相互 作用 ， 以 及 第 二 与 第 三 
个 因素 的 相互 作用 对 汽车 里 程 的 影响 不 太 显著 。 





图 6-6 3 个 因素 的 方差 分 析 表 


6.4 数据 曲线 拟 合 


多 项 式 拟 合 | 





一 般 多 项 式 拟 合 的 目标 是 找 出 一 组 多 项 式 系数 wa (I=12,…,2+1)， 使 得 多 项 式 


多 ( 恐 = 四 人 十 GO 十 十 GANX 二 Gil (6-17) 
能 够 较 好 地 拟 合 原 始 数据 。 多 项 式 拟 合并 不 能 保证 每 个 样本 点 都 在 拟 合 的 曲线 上 ， 但 能 使 得 
整体 的 拟 合 误差 较 小 。 多 项 式 拟 合 可 以 通过 MATLAB 提供 的 polyfit 函数 实现 。 

该 函数 的 调用 格式 如 下 : 

p=polyfit(x, y, m) 

其 中 ，x 和 ?) 为 原始 的 样本 点 构成 的 向 量 ，7 为 选 定 的 多 项 式 的 阶 次 ，P 为 多 项 式 系数 按 
降 虹 排列 得 出 的 行 向 量 ， 可 以 用 符号 运算 工具 箱 中 的 poly2sym 函数 将 其 转换 成 真正 的 多 项 
式 形 式 ， 也 可 以 使 用 polyval 函数 求 取 多 项 式 的 值 。 下 面 通 过 例子 演示 多 项 式 拟 合 函 数 的 使 
用 方法 和 优 缺 点 。 











其 实现 的 MATLAB 程序 代码 如 下 : 


>> clear all; 

x0=-1+2*[0:10]/10; 

y0=1./(1]+2S*+X0.^2); 

x=-1:0.01:1; 

ya=1./((]+2S#+X.^2); 
P3=polyfit(x0,y0,3);y1=polyval(p3,x); 
p5=polyfit(x0,y0,5);y2=polyval(pS,x); 
p8=polyfit(x0,y0,8);yY3=polyval(p8,x); 
p10=polyfit(x0,y0,10);y4=polyval(p10,x); 
0 y1 xy2，-X0y3，- 74); 


程序 ， 效 果 如 图 6-7 所 示 。 


全 








| 
NA 
1 2 W 
0.5 一 NS 
0 上 人“ re 
-0.5 一 站 | 
1 -0.5 0 0.5 1 


图 6-7 各 阶 多 项 式 拟 合 的 效果 
该 例子 如 果 用 Taylor 宕 级 数 展开 ， 效 果 将 更 差 。 用 下 面 的 语句 可 以 得 出 Taylor 震级 数 展 
开 式 及 拟 合 效果 ， 并 可 以 绘制 出 该 多 项 式 的 效果 ， 如 图 6-8 所 示 。 可 以 看 出 ， -这样 折合 的 结 
果 是 相当 差 的 ， 甚 至 可 以 说 是 完全 错误 的 。 





It 四 
3 引 
2 \ ) | 
外 下 / 
\ /| 
站 国 下 | 
-1 -05 0 0.5 1 
图 6-8 Taylor 盐 级 数 展开 
其 实现 的 MATLAB 程序 代码 如 下 : 
> SYInS X; 
y=]1/(1+25*x^2); 
p=taylor(yx,10) 


xl=-1:0.01:1;ya=1./(1+25S*Xx1.^2); 
y1=subs(p,x,xl);plot(xly1); 
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运行 程序 ， 输 出 如 下 : 


p= 


1-25S+*XA^2+62S+*X^4-1S625*XAO+390625*X^8 全 
[ 国 罗 连 分 式 展开 及 连 分 式 的 有 理 近 似 | 避 
连 分 式 是 对 函数 或 数值 的 一 种 很 有 效 的 近似 形式 。 函 数 /zx) 经 常 可 以 用 连 分 式 表 示 为 
1a-= 一 -一 
CCz) 二 一 
二 ”= 
万 (zx)+ 
大 CD+ RE 
(xz)+ 二 (6-18) 


最 常见 的 连 分 式 形 式 为 CauerII 型 连 分 式 ， 表 示 为 


1 一 一 一 


SR 
有 + 一 一 
p+ 一 cx 


CeX 
内 (6-19) 


MATLAB 语言 及 符号 运算 工具 箱 并 未 直接 提供 连 分 式 展 开 的 函数 ， 但 可 以 调用 Maple 
中 的 cfrac 函数 来 求 取 函数 的 连 分 式 展开 。 在 调用 该 函数 前 ， 还 需要 将 Maple 的 数 用 with 函 
数 调 入 ， 这 样 给 定 函 数 或 数值 的 CauerlI 型 连 分 式 展开 可 以 用 下 面 的 命令 实现 。 

maple(withtnumtheory):) % 调 入 数论 包 
会 maple(['cfe:=cfrac( fun ,xm)]); % 调 用 连 分 式 函 数 ,生成 cfe 变量 

其 中 ， 该 函数 将 MATLAB 定义 的 函数 字符 fan 进行 连 分 式 展开 ， 自 变量 为 x， 展 开 的 项 
数 为 六 ， 该 函数 得 出 的 部 分 分 式 展 开 cfe 为 Maple 环境 中 的 变量 ， 而 矿 为 返回 到 MAILAB 
卫 境 中 的 字符 串 。 若 对 数值 进行 连 分 式 展开 ， 则 可 以 不 给 出 x 变量 。 

由 保留 的 前 半 级 连 分 式 的 项 ， 可 以 调用 Maple 中 的 nthnumer 函数 和 nthdenom 函数 变换 
出 有 理 函 数 的 近似 形式 。 

这 两 个 函数 的 调用 格式 如 下 : 

p=maple(nthnumerycfe,n); % 由 cfe 变量 提取 前 n 级 的 分 子 
q=maple(nthdenom'cfe,n); % 由 cfe 变量 提取 前 n 级 的 分 子 

由 上 面 两 个 命令 ， 可 以 得 出 有 理 函 数 近似 形式 的 分 子 和 分 母 。 

【 例 6-12】 先 观察 一 个 常数 的 连 分 式 近似 问题 ， 试 对 r 进行 20 级 近似 ， 并 找 出 一 个 较 
好 的 连 分 式 近似 阶 次 。 

一 个 常数 的 连 分 式 可 以 用 下 面 的 语句 直接 得 出 : 





>> maple(with(numtheory):); 
个 maple(['cfe:=cfrac(pi,20)) 


运行 程序 ， 输 出 如 下 : 


于 = 
cfe:= 3+1M7+11S+ICI+I(292+10+IG+II+L(C2+L(I+IM3+IMI+IL4+12+1 
(1+L(I+LC2+LGC+L(C2+I2+LG+ 7D)D)))))7 


亦 即 的 连 分 式 展开 式 子 为 


ie 
Te 
15+-- 上 一 
人 

2 


其 中 ，292 和 其 他 值 相差 较 大 ， 所 以 截断 到 此 级 即 可 以 得 出 较 高 的 精度 。 由 有 理 近似 的 
函数 ， 则 可 以 得 出 分 子 和 分 母 的 值 为 


>>n=maple(nthnumerycfe',4); 
d=maple(nthdenom'cfe',4); 
[vpa(n),vpa(d)] 


运行 程序 ， 输 出 如 下 : 


ans 三 
[ 103993.， 33102.] 


这 时 ， 还 可 以 得 出 4 级 连 分 式 有 理 近似 为 A 8 3.1415926530119026040722614947737 。 可 
见 ， 只 用 4 级 连 分 式 近似 就 相当 接近 r 值 了 。 

【 例 6-13】 根据 要 求 ， 可 以 用 下 面 的 语句 立即 得 出 前 10 级 连 分 式 表达 式 。 

其 实现 的 MATLAB 程序 代码 如 下 ; 


>> SYImS Xi 
fon='sin(x)*exp(-x)M(x+l)^3 %fun 应 该 为 字符 串 
maple(with(numtheory)7); 

会 maple([cfe:=cfrac(' fun ,x,10)]) 


运行 程序 ， 输 出 如 下 : 


f= 

cfe:= X/(1+4*#x/(1-5*X/(3+43*#xX/(20-337*X/(43+28274*X/(1685-66157779*x/ 
{395836-9881300005*x/(512851+140501598188444*x/(158335371- 
531240292464601408*x/(2484643103+`…))))7)7)) 


亦 即 其 展开 式 为 


CE 








革 
Jr) = 
4 区 
1+ 
1- Sx 
3+ 43x 
0 337x 
5 28274x 
人 RE 
395836-. 
0 
| 46460 大 
13359300= 2484643103 十 … 
由 下 面 的 语 名 可 以 得 出 前 8 级 和 前 10 级 分 式 的 有 理 多 项 式 近似 。 
>> n=collect(maple(nthnumerycfe,8),.x); % 分 子 多 项 式 合并 同类 项 


d=collect(maple(nthdenom'cfe' ,8),x); 

[n,dj=numden(n/d); 

G=n/dilatex(G) 

n=collect(tmaple(nthnumer,cfe',10),x); % 分 子 多 项 式 合并 问 类 项 
d=collecttmaple(nthdenom' ,cfe',10),x); 

[n,dj=numden(md); 

GOl=n/dilatex(G1) 


显示 如 下 : 


和 
10Vfvfrac{xvleft(845713v{x}^{3}-4973560\{x}^f2}+11841438\x-10769871ighb }15864273\ 
fx}^14}-83147900u{xj^13}-294069480\v{xj^f2}-312380460\x- 107698710}} 

二 

ffrac{x\left( 170455846739\{xj^f4}-472453225650V{x}^f3}-3615529382220\V{x}^f2}+ 
20275122684600ux-28175852788020vight) }{2071713977216\{x}^{5}+14187032489655\ 
fxj^{4j+58214153847990v{xj^f3j+110354057230620V\{x}^f2}+92428288467480vx+28175852788020}} 


这 时 可 以 得 出 
大 CD =10 x(845713x - 4973560x2 +11841438x-10769871) 

5846273x“” -83147900x: - 294069480x: -312380460x -107698710 
用 下 面 的 语句 还 可 以 得 出 〈《0, 2) 区 间 内 的 原始 函数 Foxz) 和 大 (xz) 的 曲线 ， 如 图 6-9a 所 示 。 
可 见 ， 拟 合 效果 还 是 很 理想 的 ， 呈 10 时 效果 更 好 些 ， 几 乎 无 法 区 分 原 函 数 曲 线 和 拟 合 曲 
线 。 若 扩大 拟 合 区 域 ， 令 其 为 《0, 5)， 则 可 以 得 出 如 图 6-9b 所 示 的 拟 合 曲线 ， 可 见 这 样 的 
拟 合 效 果 变 差 ， 需 要 进一步 增加 连 分 式 级 数 ， 所 以 这 样 的 方法 有 时 不 适合 于 大 区 域 拟 合 。 


>> ezplot(fun,[0,2]); 

hold on; 
ezplot(G,[0,2]);ezplot(G1,[0,2]); 
figureiezplot(fun,[0,5]); 

hold on 
;ezplot(G,[0.5]);ezplot(G1,[0,.5]); 
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图 6-9 连 分 式 拟 合 效果 比较 
a) (0.2) 区 问 拟 合 效果 bj(0.5) 区 间 拟 合 效果 
有 理 式 拟 合 
假设 某 函 数 F(s) 的 震级 数 展开 可 以 表示 为 
JJ)=c+cas+cs+=》 ci8 (6-20) 
i0 
并 假设 上 闫 的 有 理 拟 合 近似 可 以 写成 如 下 的 有 理 函 数 形式 
广 +1 
1 一 | 
人 
Cr"(S)= .5 +Ds 十 二 局 二 后 (6-21 让 


到 放 一 | 
CS 十 CnS 十 … 十 Qi i-1 
Clj8 


1=1 
式 中 ，wl =1; 有 =c。 设 》cs =G1(9)， 则 可 以 写 出 如 下 的 等 式 
iE0 
Fr+1 


Sa yes = 六 (6-22) 
与 | il 


对 比 等 式 中 相应 次 数 的 系数 ， 令 相应 的 * 项 系数 的 值 相 等 ， 则 w (i=12,…, 普 +1) 和 
P(i=12…r+l) 可 通过 下 面 的 方程 求解 出 来 。 


形 x = mw，yY= 孙 《6-23 ) 
其 中 ， 
= (四 ，@，…， an]T，W=(-co，-Goa， …。， -cn 天 (6-24) 
y=( 户 -c， 帮 -G，…， D 一 ch) 了 =(2，03，…， 2 
且 
Ci -二 0 0 
矿 = 2 2 (6-25) 
Cr+m Cr+m-l Cm-1 Cr+l 


本 方差 分 析 及 曲线 拟 合 





(6-206 ) 


Cr 


r-1 Cr-2 O 3 
可 以 证 明 ， 若 有 理 拟 合 近 似 的 分 子 分 母 阶 次 相同 或 分 母 比分 子 高 一 阶 ， 则 该 近似 等 效 于 
GauerIl 型 连 分 式 近似 。 可 以 通过 MATLAB 的 padefen 函数 计算 7(x) 的 有 理 式 拟 合 胃 数 近 
似 。 该 函数 的 MATLAB 程序 代码 如 下 : 


C， 


function [nP,dP]=padefcn(c,rm) 
w=-c(r+2:m+HT+1) 3; 
vvy=[c(r+1:-1:1);zerosCm-1-mr1)]; 
W=rot90(hankel(c(m+r-1:r+1)vV))， 
V=rot90(hankel(c(r:-1:1)); 

x=[1(W\w)]; 

y=[1 x(2:r+l)*V'+c(2:rHT]; 
dP=x(m+l:-1:1)/x(m+l)nP=y(rH1-1:1)/x(m+l); 


【 例 6-14】 试 对 (xz) =e 天 数 用 有 理 式 拟 合 函 数 近 似 。 
解 : 可 以 选择 不 同 的 分 母 阶 次 ， 选 择 分 子 阶 次 为 0， 并 选择 不 同 的 分 母 阶 次 ， 则 可 以 得 
出 不 同 的 有 理 式 拟 合 近似 式 ， 近 似 曲 线 如 图 6-10 所 示 。 


1 一 -一 一 一 r |] 














图 6-10 原始 数据 与 拟 合 曲线 


其 实现 的 MATLAB 程序 代码 如 下 ; 


>> Symas X; 

c=taylor(exp(-2*x),10); 

c=sym2poly(c); 

c=cflend:-1:1); 

x=0:0.01:8; 

nd=[3:7];xx=[0.2,2+eps,8]; 

yy=[0,0,1,1];plot(xxyy); 

hold on; 

for =1l:length(nd) 
[n,d]j=padefcn(c,0.nd(iD); 








y=polyval(n,x)./polyval(d,x); 
plot(x:y)》; 
end 


由 图 6-9 可 见 ，3 阶 近似 得 出 的 效果 尚 可 ， 如 果 增 加 阶 次 ， 会 得 出 更 好 的 效果 ，8 阶 近 
似 的 结果 还 是 很 精确 的 。8 阶 有 理 式 拟 合 近似 表达 式 如 下 : 


二 157.5 
x+4x7 +14x5+42x5+105$x4+210x3 +315x2 +31Sx+157.5 


函数 线性 组 合 的 曲线 拟 合 方法 ] 
假设 已 知 某 函 数 的 线性 组 合 为 
SGO0=cuJGJ+c 户 (OO+ 十 cr 太 () (6-27) 
式 中 ， 太 00 万 ( 吉 ,大 (z) 为 已 知 丽 数 ，cc，…c, 为 待定 系数 。 
这 时 假设 已 经 测 出 数据 (02 思 ，xww) ， 则 可 以 建立 如 下 的 线性 方程 





4ce=p (6-28) 
式 中 ， 
JU) .PO0) … 万 00) 上 
4= 1 6 四 加) ，J=| … (6-29) 
J(Cxwy ) JD(xzi ) 本 万 (xy) Jif 


上 且 c=(@，c，…，c)r。 故 该 方程 的 最 小 二 乘 解 为 c= 活 。 


【 例 6-15】 假设 测 出 了 一 组 z%,， 世 ， 由 下 表 给 出 ， 且 已 知 函 数 原型 yz) = c +ce-3x + 


G cos(-2x)e “+ctxz  ， 试 用 已 知 数据 求 出 待定 系数 c 的 值 。 
Com 吧 [ 虽 [2TuTe 
EECOEONEECIECNETG 


其 实现 的 MATLAB 程序 代码 如 下 ; 


>> x=[0.0.2,0.4,.0.7,0.9,0.92,0.99,.1.2,1.4,1.48,1.5]'; 
y=-[2.88,2.2576,1.9683,1.9258,2.0862,2.109,2.1979,2.5409,2.9627,3.155,3.2052]'; 
A=[ones(size(x)),exp(-3*x),cos(-2+X).*exp(-4*x))X.^2]; 

C=A\y; 

Cl=c' 


运行 程序 ， 输 出 如 下 : 



















cl = 

1.2200 2.3397 -0.6797 0.8700 
>> x0=[0:0.01:1.5]; 
Al1=[ones(size(x0)),exp(-3*x0),cos(-2*x0).*exp(-4*x0),x0.^2]; 
y1=Al*c; 





STR 














plot(x0,y1,xy,x"); 
这 时 可 以 得 出 拟 合 曲线 和 已 知 数据 点 ， 如 图 6-11 所 示 。 可 见 拟 合 效果 是 令 人 满意 的 。 
3.5 一 二 
31| 
站 
2.5 Se 了 
SN 天 
2 人 
1.5 
0.5 1 1.5 


图 6-11 原始 数 撕 与 拟 合 曲线 
【 例 6-16】 假设 测 出 一 组 实际 数据 ， 试 对 其 进行 函数 拟 合 。 


To 99 [9 | 66 | 15 | 2039 | 259 | 259 | 27710909 
| oo9 | 05309 | o4699 | 04148 | 03666 | 0324 | 02865 | 02532 | 02258 | 01546 
解 : 可 以 用 下 面 的 语句 将 表 中 给 出 的 数据 用 曲线 表示 出 来 ， 如 图 6-12a 所 示 。 
其 实现 的 MAILAB 程序 代码 如 下 : 
>> x=[1.1052 1.3499 1.4918 1.6487 1.8221 2.0138 2.2255 2.4596 2.7183 3.6693]; 
y=[0.6795 0.5309 0.4693 0.4148 0.3666 0.3241 0.2865 0.2532 0.2238 0.1546]; 
plot(Cxy,Xy,* ); 
在 实际 曲线 拟 合 时 ， 有 时 从 zy 本 身 看 不 出 它们 之 间 的 关系 ， 则 可 能 需要 对 数据 进 
行 可 能 的 非 线 性 变换 ， 观 察 是 否 得 出 线性 关系 。 例 如 ， 可 以 对 交 y 分 别 进行 对 数 变 换 ， 
得 出 如 图 6-12b 所 示 的 曲线 ， 可 见 二 者 是 线性 的 。 





>> Xl=log(x);y1=log(y); 

















plot(xl,yl,xl,yl,*) 
08 盖 一 一 一 一 一 一 0r 
二 | 
0.6| AN -0.5| 人、、 | 
| 有 
NA | 
0.4 k、 -| 。 理 
本 sw 
0.2 WE -15| NA 
过 j 雪 
> 
0 一 ， -21 
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6-12 数据 及 拟 合 结果 
a) 曲线 拟 合 ”b) 对 数 变换 后 的 拟 合 


其 中 ， 两 个 空 矩 阵 表示 c 向 量 的 上 下 限 。 由 于 对 这 些 参数 的 范围 无 限制 ， 故 采用 了 默认 








的 表示 形式 。 可 以 看 出 ， 修 改 误差 限 后 ， 得 出 的 拟 合 待定 系数 更 加 精确 。 绘 制 出 的 拟 合 曲线 
与 样本 点 如 图 6-13 所 示 。 


>> A=[xl',ones(size(x17))]; 
c=[AyI] 
C= 
-1.2339 -0.2630 
>> exp(c(2) 
ans 三 0.7687 


【 例 6-17】 多 项 式 拟 合 可 以 认为 是 前 面 介 绍 的 多 函数 线性 组 合 的 特例 ， 这 样 可 以 选择 
各 个 函数 为 8JOx =x (=12…)， 用 该 方法 重新 考虑 例 6-11 中 数据 的 多 项 式 拟 合 问 
题 ， 试 观察 多 项 式 拟 合 的 效果 。 

其 实现 的 MATLAB 程序 代码 如 下 : 

>> X=[0:0.1:2]; 
y=(X.^2-3*#X+S).*exXp(-S*X).*Sin(X); 
n=7;A=[]; 
for i=1l:n+1 

A(,1)=x.^A(n+1-1D; 
end 
c=-A\y;vypa(poly2sym(c),3) 


运行 程序 ， 输 出 如 下 : 


ans 二 
.90419*x^7-7.2884*x^6+24.001*x^5-41.422#x^4+39.735*X^3-20.298*X^2 十 
4.3877*xX+.35535e-2 


最 小 二 乘 曲线 拟 合 
假设 有 一 组 数据 xx, (i=12…,N )， 且 已 知 这 组 数据 满足 某 一 函数 原型 


yz) = (az) ， 其 中 a 为 待定 系数 向 量 ， 则 最 小 二 乘 曲线 拟 合 的 目标 就 是 求 出 这 一 组 待定 系 
数 的 值 ， 使 得 目标 函数 


AN AN 
J = min 》 [yy -Jo 让 =min >》 [) -az 让 (6-30) 
” 所 ” 己 


最 小 。MATLAB 的 统计 工具 箱 提 供 了 lsqcurvefit 函数 ， 可 以 解决 最 小 二 乘 曲线 拟 合 的 问题 。 
该 函数 的 调用 格式 如 下 : 





[a, Jm]j=lsqcurvefit(Fun, a0, x, y) 


其 中 ，Fun 为 原型 函数 的 MATLAB 表示 ， 可 以 是 M- 函 数 或 inline 函数 ;ce0 为 最 优化 的 
初 值 ，z)》 为 原始 输入 输出 数据 向 量 。 调 用 该 函数 ， 将 返回 待定 系数 向 量 a， 以 及 在 此 待定 
系数 下 的 目标 函数 的 值 Jm。 

【 例 6-18】 假设 由 下 面 的 语句 生成 一 组 数据 x 和 y。 





6 二 CE 本 





>> xX=0:0.1:10; 
y=0.12*exp(-0.213*Xx)+0.54*exp(-0.17*X).*sin(1.23*X); 


并 已 知 该 数据 满足 的 原型 函数 为 (xz) = ae +aeeer sin(asxz) ， 其 中 ，a 为 待定 系数 。 采 用 
最 小 二 乘 曲线 拟 合 的 目的 就 是 获得 这 些 待 定 系数 ， 使 得 目标 函数 的 值 为 最 小 。 人 
根据 已 知 的 函数 原型 ， 可 以 编写 出 如 下 的 MATLAB 程序 代码 : 





>>  Xx=0:0.1:10; 
y=0.12*exp(-0.213#+x)+0.54*exp(-0.17*x).*sin(1.23*X); 

仁 inline('a(1)*exp(-a(2)*#*x)+a(3)*exp(-a(4)#X).*sin(a(S)*X) ，a',X ); 
% 建 立 起 阔 数 的 诛 型 , 则 可 以 由 下 面 的 语句 得 出 待定 系数 向 量 了 
[xx,res]=lsqcurvefit(E[1 1.11,1],xy》; 


XX'res 
运行 程序 ， 输 出 如 下 : 


Optimization terminated: first-order optimality less than OPTIONS.TolFun， 
and no negative/zero curvature detected in trust region model. 
ans 二 
0.1200 
0.2130 
0.5400 
0.1700 
1.2300 
res= 1.7928e-016 


可 以 看 出 ， 这 样 得 出 的 待定 系数 精度 较 高 ， 接 近 于 理论 值 a=(0.12,0.213,0.54,0.17,1.23): 。 
如 果 想 进一步 提高 精度 ， 则 需要 修改 最 优化 的 选项 ， 这 时 函数 的 调用 格式 也 将 发 生变 化 。 


>> ”% 修 改 精度 限制 

foptimset; 作 TolFun=le-20; 

任 TolX=1le-15; 

[xx,res]=lsqcurvefit( 人 [1111,1],xy,[, 口 , 提 ; 
XX'res 


运行 程序 ， 输 出 如 下 ; 


Optimization terminated: first-order optimality less than OPTIONS.TolFun， 
and no negative/zero curvature detected in trust region model. 
ans 三 
0.1200 
0.2130 
0.5400 
0.1700 
1.2300 
Tes 二 0 
>> Xx1=0:0.01:10:y1=fxx.xl); 
plot(xl,y1.x,y,o) 


和 MATLAB SRi5 


其 中 ， 两 个 空 筷 阵 表示 a 向 量 的 上 下 限 。 由 于 对 这 些 参数 的 范围 无 限制 ， 故 采用 了 默认 的 表 
示 形 式 。 可 以 看 出 ， 修 改 误差 限 后 ， 得 出 的 拟 合 待定 系数 更 加 精确 。 绘 制 出 的 拟 合 曲线 与 样 





本 点 如 网 6-13 所 示 。 
【 例 6-19】 假设 有 一 组 实测 数据 ， 如 下 所 未 : 


TeTfrerwrefrwrwfwfran 


及 设 已 知 该 数据 可 能 满足 的 原型 函数 为 yz = ar+apxres +d ， 试 求 出 满足 下 面 数据 的 
最 小 二 乘 解 ab,c,d 的 值 。 












是 一 一 一 一 一 Re 
AR 
0.4| 攻 
大 机 | 
人 X 
0.2 此 FRR 
站 扩 RN 
Dr 妈 六 夺 
及 学 | 
0.2 eg | 
人 2 4 6 8 10 


图 6-13 ” 拟 合 效果 比较 
其 实现 的 MATLAB 程序 代码 如 下 : 


>> X=0.1:0.1:1; 
y=[2.3201 2.0470 2.9707 ”3.2885 3.6008 3.9090 4.2147 4.5191 4.8232 5.1275]; 


令 qa=aaq = 思 0 =cas=dg， 这 样 ， 原 型 函数 可 以 写成 (xz) =ax+awxrzex +aw ， 可 以 
用 MAILAB 程序 代码 写 出 ; 


fonction y=c8f3(a.x) 
y=al(1)*#Xx+a(2)*#x.^2.*exp(-a(3)*X)+a(4); 


>> a=-lsqcurvefit(c8f3 [1;2;2;3],x,y); 
>> al 
Optimization terminated: relative function value 
changing by less than OPTIONS.TolFun. 
ans = 
3.1001 1.5027 4.0046 2.0000 


用 下 面 的 语句 还 可 以 计算 出 各 个 点 处 的 值 ， 可 以 将 两 曲线 绘制 在 同一 坐标 系 下 ， 如 图 6-14 
所 示 。 可 见 ， 两 曲线 还 是 很 接近 的 ， 说 明 拟 合 效 果 较 好 。 


>> yl=c8fB3(ax);plot(xy,xyl,o) 
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图 6-14 拟 合 效果 比较 


6.5 ”二 次 响应 曲面 模型 


听 应 曲面 方法 是 定量 表示 多 个 输入 变量 与 一 个 输出 变量 之 间 关 系 的 一 种 有 效 工 具 。 假 设 
一 个 输出 z 是 两 个 输入 风 y 的 多 项 式 函 数 ， 那 么 函数 z= (zx,y) 是 空间 (x,y%z) 的 一 个 二 维 曲 


面 。 
对 3 个 输入 zi, 妇 来 说 ， 一 次 响应 曲面 的 方程 为 
了 = 久 十 电 为 十 DT 十 轧 妆 十-… 十 (线性 项 ) 
已 2 十 有 思 32 十 DoX3 十 … 十 (交叉 项 ) 
记 D 二 222 十 多 〈 二 次 项 ) 
统计 工具 箱 提 供 了 用 于 交互 式 拟 合 和 显示 响应 曲面 的 rstool 函数 。 
其 调用 格式 如 下 : 


rstool(x,y) 
rstool(x, y, model) 
rstool(x, y, model, alpha，xname' 'yname) 


其 中 ，z%) 是 输入 数据 ，model 是 模型 的 种 类 ， 其 取 值 如 下 ; 

@ model=linear: 表示 仅仅 包括 常数 项 和 一 次 项 。 

@ model=-'purequadratic': 表示 包括 常数 项 、 一 次 项 和 二 次 项 。 

@ model=interaction': 表示 包括 常数 项 、 一 次 项 和 交叉 项 。 

@ model='quadratic': 表示 包括 交叉 项 和 二 次 项 。 

@ alpha 是 置信 水 平 ，'xname' 是 x 轴 的 标记 ; "yname' 是 y 轴 的 标记 。 

下 面 通过 一 个 例子 ， 说 明 rstool 函数 的 用 法 。 文 件 reaction.mat 中 包含 的 数据 反映 的 是 
某 化 学 过 程 ， 它 是 3 个 化 学 反应 物 〈 氨 、 戊 烷 和 异 戊 烷 ) 压力 的 函数 。 利 用 rstool 函数 可 以 
分 别 显示 这 3 个 压力 与 反应 率 之 间 的 关系 曲线 。 


>> % 装 载 数据 
load reaction 

% 设 置 参数 
model='quadratic '; 
alpha0=0.01; 

% 显 示 








rstool(reactantsrate,modelalpha0,xn,yn); 


利用 4 种 不 同 的 模型 ， 拟 合 得 到 的 关系 曲线 分 别 如 图 6-15~ 图 6-18 所 示 。 在 每 个 图 中 
分 别 有 3 幅 子 图 ， 对 应 了 3 个 变量 与 反应 率 之 间 的 关系 曲线 。 在 每 幅 子 图 中 ， 其 他 两 个 变量 
的 值 固 定 ， 且 在 下 面 的 可 编辑 的 文本 框 中 显示 。 任 意 改变 其 他 两 个 变量 的 值 ， 对 应 的 子 图 会 
刷新 ， 显 示 新 的 图 形 。 
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图 6-15 model='linear 时 的 关系 曲线 图 6-16_ model='quadratic' 时 的 关系 曲线 


另外 ， 还 可 以 通过 单 击 “Export” 按 钮 ， 将 计算 得 到 的 变量 保存 到 工作 空间 ， 拟 合 得 到 
的 系数 按照 如 下 的 顺序 : 
1) 常数 项 。2) 线性 项 。3) 交叉 项 。4) 二 次 项 。 


2 _ 
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图 6-17 model='purequadratic' 时 的 关系 曲线 图 6-18 model='interaction' 时 的 关系 曲线 








第 7 章 回归 分 析 


7.1 ”一 元 线性 回归 分 析 


在 许多 实际 中 ， 经 常 需 要 寻找 两 个 〈 或 多 个 ) 变量 之 间 的 关系 ， 并 希望 利用 观测 数据 拟 
合 系统 的 数学 模型 ， 其 中 最 简单 的 模型 是 线性 模型 。 








一 元 线性 回归 分 析 的 基本 定义 
假设 随机 变量 >” 和 x 之 间 服 从 以 下 的 线性 关系 
=CX+xr+E (7 坟 
现存 在 个 值 交 zz 人 (=1L2,…,)， 则 它们 满足 关系 
J 儿 =C+UBx +E 《7-2) 
假设 s 相互 独立 且 满 足 
中 ~ Na )，i=12 7 (7-3) 


则 称 变量 > 和 服从 一 元 线性 回归 模型 〈 或 一 元 线性 正 态 回 归 模 型 )。 

对 上 述 定义 的 一 元 线性 回归 模型 ， 实 际 考 虑 的 统计 推断 间 题 是 ; 在 已 知 观测 值 
攻克 (=2 2) 的 基础 上 ， 对 未 知 参数 xc ，B ，o2 进行 估计 ， 对 ce ，B8 的 某 种 假设 进行 
检验 ， 对 y 进行 预报 等 。 

多 绞 未 知 参数 估计 | 
(1) (wx,P) 的 最 小 二 乘 估计 
对 一 组 观测 值 wx (=L12,…,z)， 它 满足 
妨 =C+AOXi + (7-4) 
最 小 二 乘法 是 寻找 未 知 参数 (w, B) 的 估计 量 (&,P) ， 使 得 


Oo-a-po -my 0 -CC 一 PBx 《7-5) 
人 1 ” 人 
满足 式 〈7-5) 的 估计 量 (@, 启 ) 被 称 为 (c,B) 的 最 小 二 乘 估计 。 
记 
PleJ)=》 OO-a-po 帮 6) 
i=1 
令 


间 





apP_0,， 纪 _-0 (7-7) 





Oaw 9 
可 以 得 到 
/+ 应 = 历 
尹 站 刀 (7-8 ) 
IC+》 如 = 》 xy 
/=] 秋 1 
关 >》 
式 中 ， ee 了 = 人 9 
避 => -DO - 刀 => zy-L ny (7-9) 
i=1 姜 1 = 了] 
村 六 打 2 
人- 袜 -本 - 袜 - 才 守 = (7-10) 
1=1 f=1 i=] 
求解 方程 ， 得 到 唯一 解 为 
&=7-A 订 
二 亿 人 0 (7-11》 


> - 宁 
i] 
在 平面 直角 坐标 系 中 ， 通 过 (0, 人 ) 与 〈 苞 ,>) 两 点 引 一 直线 ， 即 为 所 求 的 回归 直 
线 。 这 是 因为 点 〈0，C ) 显然 在 直线 
了 =C+Apx 
上 。 若 将 人 = 了 -px 代入 式 (7-11)， 则 有 
了 -7 了 = px 如 (7-12) 
可 知 点 《无 ,三 ) 也 在 这 条 直线 上 。 
(2) (ca,B) 的 最 小 二 乘 估计 的 矩阵 算法 
一 元 线性 回归 模型 参数 的 最 小 二 乘 估计 的 矩阵 算法 记 为 


1 ] 为 
外 污 公 
y=| |，X=|:， |， 4 (7-13) 
: 2 
钾 1] 加 


则 一 元 线性 回归 的 数据 模型 为 ?= X4 。 这 是 一 个 不 相 容 的 线性 方程 组 ， 当 rankCO=2<m 时 ， 
其 最 小 二 乘 解 为 
4=(XT 一 以 ) 克 一 (7-14) 





回归 分 析 





通常 ， 在 高 等 代数 的 广义 逆 矩 阵 理论 中 有 关于 这 一 算法 的 详细 推 证 。 感 兴趣 的 读者 请 自 


行 查阅 相关 资料 。 
(3) (c,D) 的 极 大 似 然 估计 
由 于 ”相互 独立 ， 上 且 ， ~ N(a + Bx,a2) ， 则 有 罗 , 太 六 的 联合 概率 密度 为 芭 
了 上 = [了 巧 ep| -二 -C 一 paP| 





(7-15 ) 


= 所 We = 人 二 po7| 


要 求 估计 的 (C, 谅 使 得 似 然 函数 工 取得 最 大 值 ， 只 要 
PlwP)=y Oo -apo (7-16) 
| 


取得 最 小 值 即 可 。 这 又 回 到 了 最 小 二 乘 估计 的 情形 。 
(4) oz 的 估计 
全 


由 于 o? = De = EC， 故 可 以 用 与。 对 o 作 邱 估 计 ， 以 ws 的 相应 估计 量 代入 ， 可 得 


0 = -1>0'- -CC-pxP (7-17) 


| 


式 (7-17) 吕 以 看 做 是 近似 和 矩 估 计 。 
代入 (C,) 的 估计 值 ， 则 有 


.2 1 忌 二 1 一 
2 - 交 -pc- 了 | (7-18) 


回归 方程 的 显著 性 检验 
建立 经 验 回归 方程 的 目的 在 于 揭示 两 个 相关 变量 * 与 ?之 间 的 内 在 规律 ， 然 而 ， 对 任意 
样本 观测 值 x, (=12,…, 问 做 出 的 散 点 图 ， 即 使 一 看 就 知道 与 ?之 间 根 本 不 存在 线性 关 
系 ， 也 能 由 式 〈7-11) 算出 么 ， 房 ， 从 而 写 出 线性 回归 方程 儿 = 人 + px ， 但 这 时 所 建立 的 回 
归 方程 是 毫 无 意义 的 。 什 么 是 一 个 有 意义 的 回归 方程 呢 ? 首先 注意 到 >=w+Pr+e， 当 | 
越 大 ，?》 随 x 的 变化 越 显 著 ， 当 | 中 | 越 小 ，> 随 x 的 变化 越 不 明显 。 特 别 当 B=0 时 ， 意 味 着 
与 x 之 间 没 有 线性 关系 。 也 就 是 说 ， 所 建立 的 回归 方程 没有 意义 ;因此 当 B# 关 0 时， 所 建 
立 的 回归 方程 才 有 意义 。 这 实质 上 就 是 要 对 假设 刀 : 8 =0 进 行 检验 ， 这 种 检验 称 为 回归 显 
著 性 检验 。 


为 了 寻找 合适 的 统计 量 ， 对 关系 式 几 -2o- - 习 ? 进行 分 解 ， 并 称 饭 为 总 的 偏差 平方 
和 ， 记 作 S ， 它 反映 妃 , 思 ……] 的 离散 程度 ， 即 








Sr 0 刀 ? -2 - 闪 ] (7-19) 


三 ] 
由 于 变量 的 各 个 观测 值 y 与 其 均值 壮 的 离 差 w -了 可 以 分 解 为 两 部 分 
及 -7 了 = ( 广 - 丸 +( 一 广 ) 
式 中 ， 坟 -了 是 多 与 二 的 离 差 ， 久 -了 是 回归 值 记 与 均值 了 的 离 差 ， 这 是 回归 能 解释 的 部 
分 ， 包 =- 方 是 观测 值 ”与 回归 值 六 的 离 差 ， 亦 即 残 差 e ， 这 是 回归 不 能 解释 的 部 分 。 
因为 


忆 0 -下 =2 侯 - 丈 +20 一 及 +22 人 方 - 刀 0 一 脐 
能 够 证 明 > 人 方 - 刀 0 - 记 )=0， 因 此 有 


5 = 儿 = 忆 人 -下 =2 志 -下 + 一 有 


S = 》( 方 - 刀 ? (7-20) 
3 = (ON 一 帮 7) (7-21) 

于 是 
S =S +S (7-22) 


可 以 证 明 万 = 才 浆 广 ， 因此 Se = > 仿 一 疏 ? 反映 回归 值 太 , 儿 ,，…, 名 的 离散 程度 ， 称 为 
回归 平方 和 。 而 访 , 久 ,六 的 离散 性 又 来 源 于 x ,已 ，.,x 的 离散 性 ， 实 际 上 
S =ZB- 歼 =2C+b)-(CC+ 应 于 = 忆 记 6-= 良 2 -下 
=p = 有 (7-23) 
这 里 / -二 - 司 - 反映 了 xz 的 离散 程度 ， 从 而 可 知 S， 疏 、 、 妃 * 实际 上 


反映 了 由 于 x 的 变化 而 引起 的 波动 的 大 小 ， 这 里 ， 是 通过 x 对 y 的 相关 性 而 引起 的 。 
S。 和 - 纪 ) 反映 了 观测 值 与 回归 值 之 间 的 偏离 ， 且 等 于 Plc,Z) 的 最 小 值 


[em-o -ea rasayeaieeanzAgs 站 7 
沁 ] 
的 大 小 。 故 称 8. = > (0 一 乌 ): 为 剩余 平方 和 (或 残 差 平方 和 )。 
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S.=Sr -Sn (7-24) 
若 回归 方程 有 意义 ， 即 》 的 波动 主要 是 由 x 的 变化 引起 的 ， 其 他 一 切 因素 是 次 要 的 。 即 
要 求 只 尽 可 能 大 ， 而 $. 尽 可 能 小 


可 以 证 明 ， 乌 
芭 27，_ 


2) 85=0 时 ， 注 ~z 2() 。 





3) 8 与 8 相互 独立 。 
1. 上 检验 法 一 方差 分 析 法 
由 前 而 的 分 析 可 知 ， 在 艺 :有 = 0 为 真 时 


人 国 
“TO Fn-2) (7-25) 


当 肋 不 真 时 ， 豆 T_T 有 变 大 趋势 因而 已 也 有 变 大 趋势 ， 故 应 取 单 侧 拒绝 域 。 对 给 
定 的 显著 性 水 平 wc ， 当 焉 > 已 (La -2) 时 ， 认 为 =0 不 真 ， 称 方程 是 显著 的 ， 反 之 ， 方 程 
不 显著 。 这 种 用 已 检验 对 回归 方程 作 显 著 性 检验 的 方法 称 为 方差 分 析 。 其 检验 过 程 可 由 一 张 
“方差 分 析 表 ”来 进行 ， 见 表 7-1。 


表 7-1 方差 分 析 表 





2.7 检 验 法 一 拟 合 程度 的 测定 

变量 的 各 个 观测 值 点 聚 在 回归 直线 户 = K + Bx 周围 的 紧密 程度 ， 称 为 回归 直线 对 样本 
数据 点 的 拟 合 程度 ， 通 常用 可 决 系数 〈 也 称 为 测定 系数 ) 王 来 表示 。 

显然 ， 变 量 y 的 各 个 观测 值 点 与 回归 直线 越 靠近 ， Sn 在 Sr 中 所 占 的 比重 就 越 大 ， 因 而 
定义 

P- 主 - 如 自 - 六 - 习 (7-26) 
DO 一 访 ) 

它 可 用 来 测定 回归 直线 对 各 观测 值 点 的 拟 合 程度 。 若 全 部 的 观测 值 点 (=12……m) 都 落 在 
回归 直线 上 ， 则 剩余 平方 和 8. =0， 壮 =1; 若 x 完 全 无 助 于 解释 的 偏差 ， 则 回归 平方 和 
SR =0， 六 =0。 显 然 ， 王 越 接近 于 1， 用 x 的 变化 解释 y 的 偏差 的 部 分 就 越 多 ， 表 明 回 归 
直线 和 各 观测 值 点 越 接近 ， 回 归 直 线 的 拟 合 程度 越 高 。 可 决 系数 六 在 [0, 1] 上 取 值 。 








回归 直线 对 样本 数据 点 拟 合 程度 的 另 一 测度 是 线性 相关 系数 ” 。 在 一 元 线性 凹 归 中 , 线 
性 相关 系数 ”实际 上 是 可 决 系数 斑 的 平方 根 ， 即 


rr=+vr: (7-27) 
/的 符号 与 回归 系数 记 的 符号 相同 ， 人才 | 越 接近 十 1， 表 明 回 归 直 线 对 样本 数据 点 的 拟 合 


3. 估计 标准 差 
可 决 系数 王 和 线性 相关 系数 ~ 描述 了 回归 直线 对 样本 数据 点 的 拟 合 程度 ， 但 没有 表示 出 
变量 的 诸 观察 值 ” 与 回归 直线 上 六 = w+ px 的 绝对 离 差 数 额 。 定 义 
S2 - 》 (0 一 广 ) _ 人 


1 一 2 7 一 2 
为 最 小 一 乘 残 差 值 e 方差 ， 定 义 


2 2 2 
S, = 之 - 贡 -人 22 (7-28) 


为 变量 对 x 的 最 小 二 乘 回归 的 估计 标准 误差 ， 简 称 估计 标准 误差 。 S, 和 8S, 可 以 作为 ? 值 与 
回归 直线 变 差 的 测度 。 $, 的 计量 单位 与 变量 的 单位 相同 。 显 然 ， S, 越 小 ， 表 明 误差 越 小 。 

MATILAB 提供 了 线性 回归 模型 的 建 模 与 评价 函数 regress。 

regress 图 数 可 用 于 己 个 自 变量 、 一 个 因 变 量 的 线性 回归 模型 ，y=XB+E， 
sE~N(p,a21) 的 建 模 和 模型 评价 ，p 是 指 疡 个 自 变 量 的 靖 个 观测 值 。 

其 调用 格式 如 下 : 

[b, bint, rn rinb stats]=regress(y, x, alpha) 

其 中 ， 输 入 参数 x 表 示 忆 个 自 变量 的 靖 个 观测 值 的 zx 和 矩阵 ，” 表示 因 变 量 的 半 个 观测 
值 的 ax1 个 向 量 ，alpha 是 显著 性 水 平 〈 可 以 省 略 ， 默 认 值 为 0.05)。 输 出 参数 户 返 回 的 是 模 
型 系数 〈 向 量 ) 6 的 最 小 二 乘 估计 值 ，bint 是 B 的 100(1-alpha)% 的 置信 区 间 ， 是 模型 拟 合 
残 差 《向量 )，rint 是 模型 拟 合 残 差 的 100(1-alpha)% 的 置信 区 间 ，stats 包含 可 决 系数 rz 的 


值 ， 方 差分 析 的 严 统计 量 的 值 、 方 差分 析 的 显著 性 概率 p 的 值 和 模型 方差 ez 的 估计 值 。 其 


中 ，bint、r、rint 和 stats 可 以 默认 。 

【 例 7-1】 某 种 合金 强度 与 碳 含量 有 关 ， 研 究 人 员 在 生产 试验 中 收集 了 该 合金 的 强度 》 
与 碳 含量 x 的 数据 〈 见 表 7-2)。 试 建立 与 x 的 函数 关系 模型 ， 并 检验 模型 的 可 信 度 ， 检 查 
数据 中 有 无 异常 点 。 





分 析 : 本 问题 的 目的 是 确定 合金 强度 与 碳 含量 之 间 的 相关 系数 。 现 已 给 出 一 组 统计 观测 
数据 ， 通 过 作 数 据 的 散 点 图 ， 观 察 散 点 图 的 形状 可 知 ， 可 建立 一 元 线性 回归 模型 ， 设 一 元 线 


性 回归 模型 为 ?>= 克 +Rx ， 调 用 regress 函数 求解 。 模 型 的 可 信 度 可 用 可 决 系数 的 大 小 表 
示 ， 因 此 计算 出 可 决 系数 壮 即 可 。 
其 实现 的 MATLAB 程序 代码 如 下 : 





>> cjear all; 

Xx1=0.1:0.01:0.18; 
X2=[x1,0.2,0.21,0.23]; 
y=[42.0,41.5,45.0,45.5,45.0,47.5,49.0,55.0,50.0.55.0,55.5,60.5] ; 
X=[ones(12,1),x2]; 

% 作 数据 的 散 点 图 

figure; 

plot(Xx2,y, + ) 

% 回 归 分 析 
[b.bint,rrint,stats]=regress(y,X); 
b,bint,stats， 

% 作 残 差 分 析 图 

figure(2); 

rcoplot(rrint);hold on; 

% 预 测 及 作 回 归 线 图 
Z=b(1)+b(2)*x2; 
plot(x2,y,*#,x2,ZT); 
legend(" 预 测 图 回归线 图 ); 


运行 程序 ， 输 出 如 下 : 

b = 
27.0269 
140.6194 

bint = 
22.3226 ”31.7313 
111.7842 169.4546 

Stats = 
0.9219 118.0670 0.0000 3.1095 


残 差 图 如 图 7-1 所 示 ， 散 点 图 及 回归 线 图 如 图 7-2 所 示 。 


绘制 残 差 效 果 图 








残 差 结果 


残 差 数 
图 7-1 残 差 效 果 图 





结果 表明 ， 参 数 的 估计 值 房 =27.0269， 记 = 140.6194;， 记 的 置信 区 间 为 [22.3226， 
31.7313]， 记 的 置信 区 间 为 [111.7842，169.4546]， 可 决 系数 王 = 0.9219 (接近 于 常数 1)， 且 
屎 =118.0670， 忆 = 0.0000<0.05，G 寻 : =3.1095， 故 回归 模型 

了 =27.0269+140.6194x 


成 立 。 
从 图 7-1 中 可 看 出 ， 除 第 八 个 数据 外 ， 其 余数 据 的 残 差 离 零点 都 较 近 ， 且 残 差 的 置信 区 
间 均 包含 零点 ， 这 说 明 回归 模型 
? 了 =27.0269+140.6194xr 
能 较 好 地 拟 合 数据 ， 而 第 八 个 数据 可 视 为 异常 点 。 从 图 7-2 中 也 可 看 出 ， 回 归 线 能 较 好 地 表 
示 散 点 图 的 形状 ， 只 有 第 八 个 数据 点 离 回 归 线 较 远 。 为 什么 会 出 现 异 常 点 呢 ? 这 需要 对 实现 
过 程 进行 分 析 ， 进 一 步 查 明 原因 |。 
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图 7-2 散 点 图 及 回归 线 图 


多 网 和 用 回 / 归 方程 进行 预测 | 

建立 回归 方程 的 目的 不 仅 是 描述 变量 之 间 的 关系 ， 更 重要 的 是 回归 方程 的 应 用 。 利 用 所 
建立 的 回归 方程 对 因 变 量 进行 预测 是 其 应 用 的 基本 内 容 。 在 一 元 线性 回归 分 析 中 ， 当 回归 方 
程 放 = &+ 记 r 具有 统计 显著 性 时 ， 利 用 回归 方程 容易 实现 对 因 变 量 ”的 预测 ， 而 这 一 问题 的 
实质 是 对 的 点 估计 和 区 间 估 计 。 

在 前 面 讲解 的 基础 上 ， 容 易 证 明 ; 

了 e+pr-x| arp + 寻 玉 je， 且 儿 与 ?相互 独 立 。 


开 








这 个 结论 表明 ， 其 经 验 回归 方程 放 = &+ px 是 线性 函数 EO) = w+ Bx 的 无 偏 估计 。 
因此 ， 当 x= 避 时 ， 因 变量 y 的 预测 值 即 为 负 =a+px ， 它 是 闪 =a+bx + 的 无 偏 估 
计 。 在 显著 性 水 平 c 下 ， 为 的 估计 边际 误差 〈 区 间 估 计 ) 可 由 准则 式 
P{buo=- 间 < 叶 >1-c 
确定 ， 由 和 乌 的 分 布 可 以 推出 


口 本 上 县 2 葵 河 





一 2 
5-1e0-26 外 1+G 


显然 ， 预 测 的 精度 取决 于 6 的 大 小 ， 而 影响 5 大 小 的 因素 主要 是 样本 容量 部 ，x 与 的 距离 电 


mv 


及 自 变量 的 偏差 平方 和 1 。 当 样本 容量 ， 较 大 ，x 与 x 的 距离 较 近 ， 自 变量 的 偏差 平方 和 
1_ 较 大 《采样 较为 分 散 ) 时 ，5 的 取 值 就 较 小 ， 此 时 预测 的 精度 较 高 。 另 外 ， 当 
ze[x ,xy] 时 ， 预 测 精度 可 能 变 得 很 差 ， 在 这 种 情况 下 需要 特别 小 心 。 

由 于 上 面 的 计算 边际 误差 8 的 公式 元 繁 ， 故 在 实际 应 用 中 ， 当 交 取 在 元 附近 ，m 很 大 
时 ， 利 用 六 一 史 一 N(0,652) 计算 近似 的 边际 误差 5* ， 此 时 凡 的 置信 水 平 为 095 的 预测 置信 
区 间 近 似 为 蔬 - 25", 攻 +2567) ， 置 信 水 平 为 0.99 的 预测 置信 区 间 近 似 为 少 -36 ,+36 ) 。 

【 例 7-2】 大 家 知道 ， 营 业 税 税收 总 额 ”与 社会 商品 零售 总 额 x 有 关 。 为 了 通过 社会 商品 
零售 总 额 预测 营业 税 税收 总 额 ， 需 要 了 解 两 者 之 间 的 关系 。 现 收集 了 9 组 数据 ， 见 表 7-3。 





表 7-3 ”社会 商品 零售 总 额 与 营业 税 税收 总 额 单位: 亿 元 ) 
序 导 社会 商品 零售 总 额 x 营业 税 税收 总 靳 》 
区 
8 389.29 I6.39 


试 利用 关于 营业 税 税收 额 》 与 商品 零售 额 x 的 回归 方程 ， 预 测 当前 商品 零售 额 革 300 亿 
元 时 ， 营 业 税 税收 额 》 的 值 。 
分 析 : 进行 点 预测 和 区 间 预 测 。 由 于 大 300 亿 元 接近 商品 零售 额 的 平均 值 ， 故 用 近似 置 
信 区 间 进 行 区 间 预 测 ， 显 著 性 水 平 取 o=0.05。 
其 实现 的 MATLAB 程序 代码 如 下 : 
>> clear al]; 


x=[142.08,177.30,204.68,242.88,316.24,341.99,332.69,389.29,453.40] '; 
yY=[3.93,5.96,7.85,9.82,12.50,15.55,15.79,16.39,18.45] ; 


X=[ones(length(x),1),x]; % 构 造 自 变量 观测 值 和 矩阵 
[b,binbrrint,stats|Fregress(y,X); % 线 性 回归 建 模 与 评价 

b,stats % 显 示 所 关心 的 输出 参数 

x0=300; 

y0=b(1)+b(2)*x0 % 点 预测 
SSE=sum((y-(b(1)+b(2)*x)).^2); % 计 算 残 差 平 方 和 
STD=sqrt(SSE/length(x)-2)); % 计 算 标准 误差 

DELTA=2*STD; % 计 算 0.05 显著 性 水 平 下 的 边际 误差 





ci=[y0-DELTA,.y0+DELTAI] %0.95 置信 区 间 
行程 序 ， 输 出 如 下 : 


bb= 


全 | 


-2.2610 

0.0487 
stats = 

0.962S 179.7711 0.0000 1.1315 
yY0 = 

12.3423 
cl 一 

10.2149 “14.4698 


由 此 可 知 ， 回 归 方 程 为 了 = -2.2610+0.0487x ， 回 归 方 程 高 度 显 著 ， 可 决 系数 
六 = 0.9625， 模 型 方差 的 估计 器 = 1.1315。 

即 当 社 会 商品 零售 总 额 为 300 亿 元 时 ， 营 业 税 半 均 税收 总 额 的 预测 值 约 为 12.3423 亿 
元 ， 其 置信 水 平 为 0.95 的 置信 区 间 为 〈10.2149 ,14.4698 )。 
一 元 非 线 性 回归 模型 

在 实际 问题 中 ， 变 量 之 间 常 常 不 是 直线 关系 。 这 时 ， 通 常 是 选 配 一 条 比较 接近 的 曲线 ， 
通过 变量 变换 把 非 线性 方程 加 以 线性 化 ， 然 后 对 线性 化 的 方程 应 用 最 小 二 乘法 求解 回归 方 
程 。 这 就 是 本 节 要 讲解 的 曲线 回归 问题 。 

最 小 二 乘法 的 一 个 前 提 条 件 是 函数 y= (zx) 的 具体 类 型 已 知 ， 即 要 求 首 先 确定 x 与 内 
在 关系 的 函数 类 型 。 函 数 的 类 型 可 能 是 各 种 各 样 的 ， 具 体 类 型 的 确定 或 假设 ，- 一 般 有 以 下 两 
个 途径 : 一 是 根据 有 关 的 物理 知识 ， 确 定 两 个 变量 之 间 的 函 数 类 型 ， 二 是 把 观测 数据 画 在 坐 
标 纸 上 ， 将 散 点 图 与 已 知 的 函数 曲线 对 比 ， 选 取 最 接近 散 点 分 布 的 曲线 进行 试 算 。 

常见 的 一 些 非 线性 函数 及 线性 化 方法 如 下 : 


(1) 倒 宕 函数 y= ao+b 弄 





令 忆 = 工 ， 则 =a+ar'。 
(2) 双 曲 线 寺 = a+b 二 型 
》 基 


令 7 = 六， = 过 则 交 =a+pxr' 。 

(3) 才 函 数 曲线 = 必 * 型 

令 7=Ilny，z=inr，a=lnd， 则 风 =a+pbx'。 
(4) 指数 曲线 = de 型 


令 =lny，a=lnd， 则 交 =a+pxr。 








力 
(5) 倒 指数 曲线 = dex 型 。 
令 多 =lny， zx= 二 ， a=lnd， 则 记 =a+bx' 。 
(6) 对 数 曲线 =a+blnx 型 
令 闪 =Inx， 则 ?=a+px 


(7) 8 型 曲线 y= 一 ] 型 


QT+Dpe 一 





令 7 = Xe 则 交 =a+px' 。 


综 上 所 述 ， 许 多 曲线 都 可 以 通过 变换 化 为 直线 ， 于 是 可 以 按 直 线 拟 合 的 办 法 来 处 理 。 在 
线性 化 方法 中 ， 对 数 变换 是 常用 的 方法 之 一 。 当 函数 = (zx) 的 表达 式 不 清楚 时 ， 往 往 可 用 
对 数 变换 进行 试探 看 是 否 能 线性 化 。 通 常 把 观测 值 标 在 对 数 坐 标 图 中 ， 当 表现 出 良好 的 线性 
时 ， 便 可 对 变换 后 的 数据 进行 思 归 分 析 ， 之 后 将 得 到 的 结果 再 代 回 原 方程 。 因 而 ， 回 归 分 析 
是 对 变换 后 的 数据 进行 的 ， 所 得 结果 仅 对 变换 后 的 数据 来 说 是 最 佳 拟 合 ， 当 变换 回 原 数据 坐 
标 时 ， 所 得 的 回归 曲线 ， 严 格 地 说 并 不 是 最 佳 拟 合 ， 不 过 ， 其 拟 合 程度 通常 是 令 人 满意 的 。 

进行 对 数 变换 时 ， 必 须 使 用 原 数 据 的 实际 观测 值 ， 而 不 能 用 经 等 差 变换 后 的 相对 差 值 。 
例如 ， 对 原 观测 值 11 和 12 应 用 等 差 变换 可 以 简化 计算 ， 用 它们 与 10 的 相对 差 值 ( 即 1 和 
2) 来 描绘 图 形 并 不 影响 曲线 的 形状 。 然 而 ， 对 数 坐 标 中 的 距离 代表 的 是 比值 ， 显 然 11 和 12 
的 比 同 1 和 2 的 比 是 完全 不 同 的 。 

可 以 看 到 ， 在 所 配 曲 线 的 回归 中 ， 可 决 系数 天 、 剩 余 标准 误差 %, 、 成 值 的 计算 稍 有 不 
间 。x 、 久 等 仅仅 是 为 了 变量 变换 ， 使 曲线 方程 变 为 直线 方程 ， 然 布 ， 要 求 的 是 所 配 曲线 
与 观测 数据 拟 合 较 好 ， 所 以 计算 王 、S,、 环 值 时 ， 应 首先 根据 已 建立 的 回归 方程 ， 用 x 依 


次 代入 ， 得 到 罗 后 再 计算 残 差 平方 和 S. = 》 (0 - 广 ] 及 总 平方 和 Sr = 多 (0 - 妃 ? ， 于 是 
| 全 1 


72=1T_->~e =1-_ 《7-29) 
> 0 一 习 ” 
和 1 
2 0 一 访 ) 
9， = CR 30 


_ 回 归 平方 和 / 帮 。 Sa/ 
“ 残 莹 平方 和 / 帮 “ 避 /)n-2 





人 6[ 信 


式 中 ， SR =S7r 一 9。。 
【 例 7-3】 某 肉 性 鱼 的 体 长 cm) 和 体重 (kg) 的 值 见 表 7-4， 试 对 鱼 的 体重 与 体 长 进 
行 回 归 分 析 。 








表 7-4 雌性 鱼 的 体 长 与 体重 的 数据 表 


本 一 本 到 本 末 
获 邱 70 二 到 尖 号 138.46 148.00 152.00 


分 析 : ee 选 定 曲线 类 型 ， 从 散 点 图 〈 见 图 7-3) 
中 实测 点 的 分 布 趋势 看 出 它 比 较 接近 宕 函数 曲线 图 形 ， 因 而 选用 > = ax" 来 进行 拟 合 。 由 于 是 非 
线性 回归 ， 所 以 可 用 两 种 方法 求 出 参数 a ，， 。 一 种 是 用 mm 文件 定义 的 非 线性 函数 > = ax* ， 然 
后 在 主 程序 中 使 用 非 线性 回归 命令 nlinfit 求解 。 另 一 种 是 线性 化 ， 即 将 非 线性 模型 转化 成 线 
性 模型 ， 只 要 对 = ar 取 对 数 ， 即 得 ny=Iina+bnx， 令 六 =Iny，am=lna，z=lnr， 
则 得 线性 模型 ) = wa +pxi 。 
其 实现 的 MATLAB 程序 代码 如 下 : 
《第 一 种 方法 ) 首先 定义 非 线性 函数 ， 并 保存 为 m 文件 yutm。 
function y=yut(beta,x) 
y=beta(1)*x.^beta(2); 
其 实现 的 MATLAB 程序 代码 如 下 : 
>> % 输 入 数据 
X=[70.70,98.25,112.57,122.48,138.46,148.00,152.00,162.00]; 
y=[1.00,4.8S,6.59,9.01,12.34,15.50,21.25,22.11]; 
beta0=[0.1.3]'; 
% 求 回归 系数 
[betarJ]=nlinfit(x,y',yut,beta0); 
beta 
% 预 测 及 作 图 
[YY,deltaj=nlpredci(yut',x',betaLr,J); 
plot(Cxy,k+x YY r); 
运行 程序 ， 输 出 如 下 : 
beta = 
0.000000758190151 
3.38$125797710225 
因为 MAITLAB 默认 是 short 型 ， 其 结果 只 保留 4 位 小 数 ， 故 这 种 情形 下 无 法 看 出 结果 
把 MATLAB 设置 为 long 型 ， 输 出 结果 如 上 。 
结果 表明 ， 参 数 的 估计 值 G=7.58x107” ，8 =3.3851， 故 回归 模型 为 
了 = 7.58x10-7x33851 
数据 的 散 点 图 与 回归 线 图 如 图 7-3 所 示 。 从 图 7-3 可 看 出 ， 回 归 线 能 较 好 地 表示 散 点 图 
的 形状 ， 因 此 ， 回 归 模型 成 立 。 
〈 第 二 种 方法 ) 其 实现 的 MATLAB 程序 代码 如 下 : 
>> % 输 入 数据 


x=[70.70,98.25,112.57,122.48,138.46,148.00,152.00,162.00]; 
y=[1.00,4.85,6.59,9.01,12.34,15.50,21.25,22.11]; 
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% 对 数据 作对 数 变换 
xX1=log(X); 
y1=log(y)》; 
% 求 线性 回归 系数 
x2=[ones(8,1),xl]; 
[b,bintrint,stats]=regress(y]1 ,x2); 
b 
al=exp(b(1)) 
% 预 测 及 作 图 
ZbB(ID)+b(2)*x1; 
yc=exp(Z); % 体 重 的 预测 值 
plot(X,y,k+ ,XyYcvT); 
运行 程序 ， 输 出 如 下 : 
b = 
-15.3913 
3.6494 
81 = 一 
2.0684e-007 





结果 表明 ， 参 数 的 估计 值 G= 2.068x107 ，b =3.6491， 故 回归 模型 为 
= 2.068x10-7 32464494 
数据 的 散 点 图 与 回归 线 图 如 图 7-3 所 示 。 


| 十 了 | 
20 上 了 
/ 
15 全 
十 
10| AA 
新 





了 





5 士 一 

呈 | 
0 下 wo 和 EE- | 
60 80 100 120 140 160 180 





图 7-3 ” 散 点 图 与 回归 线 图 
比较 两 种 方法 ， 建 立 的 回归 模型 有 一 定 的 差异 ， 这 是 为 什么 呢 ? 可 以 计算 两 种 方法 的 残 
差 平方 和 ， 第 一 种 方法 的 残 差 平方 和 sl=sum(r^2)=12.1084， 第 二 种 方法 的 残 差 平方 和 
s2=sum((y-yc).^2 六 14.0245，s2 大 于 s1。 一 个 合理 的 解释 是 : 由 于 调用 了 不 同 的 MATLAB 命 
令 ， 产 生 了 计算 误差 ， 特 别 是 ， 第 二 种 方法 对 数据 进行 对 数 化 变换 可 能 造成 更 大 的 误差 。 


7.2 ”多 元 线性 回归 分 析 


一 元 线性 回归 将 影响 因 变 量 的 自 变 量 限制 为 一 个 ， 这 在 现实 中 的 大 多 社会 经 济 现象 中 并 
不 容易 做 到 ， 因 而 应 用 回归 分 析 时 ， 常 常 要 有 更 一 般 的 模型 ， 把 两 个 或 更 多 个 解释 变量 的 影 





。 j 玫 | MIATILLABB 让 府 5 到 统计 分 析 





响 分 别 估计 在 内 ， 这 就 是 多 元 回归 ， 亦 称 为 多 重 思 归 或 复 回归 。 当 影响 因素 与 因 变量 之 间 是 
线性 关系 时 ， 所 进行 的 回归 分 析 就 是 多 元 线性 回归 。 


多 元 线性 回归 分 析 的 基本 定义 | 


在 实际 问题 中 ， 遇 到 更 多 的 问题 是 讨论 随机 变量 了 与 非 随机 变量 3,2…xw 之 间 的 关 
系 。 假 设 它们 有 具有 线性 关系 





y= 克 + …+Dr+E 〈7-32) 
式 中 ，E~ No )，j, 思 ,DB，o 部 是 未 知 参数 ， 一 般 称 式 〈7-32) 定义 的 模型 为 多 
元 线性 回归 模型 ， 为 ,xy 为 回归 变量 ， 有 ,PDB ,为 回归 系数 。 
假设 如 oo(=2 1) 是 区 yy 的 地 个 观测 值 ， 则 它们 满足 关系 
世 = 万 + 如 十 十 Dr 十 下 7 =)2 7 (7-33 ) 
式 中 ，2 相互 独立 ， 月 所 ~ N(0,o) 。 
由 于 假设 = 相互 独立 ， 则 多 也 相互 独立 ， 用 
， = 必 +AN 二 十 om 


(7-34) 
Di =c- 


矩阵 表示 法 | 


要 建立 多 元 线性 回归 模型 ， 首 先 要 估计 未 知 参数 记 ,m,…,B,， 为 此 进行 ma 三 六 次 独 
立 观测 ， 得 到 半 组 数据 〈 称 为 样本 ) 


区 


jn-1 
它们 应 满足 式 〈7-33)， 即 有 





JJ ， 1 = 1,2,……,j 


镍 = 万 + 几 和 + 十 二 mw1 十 吕 
光 = 岂 +RiPi+ADa + 十 DOPDml+e (7-35) 
Jr 一 友 二 xn 十 xn 下 人 二 四 -1Xmmr 一 | 十 


式 中 ，,s，…eE 相互 独立 ， 且 服从 N(0,a2) 分 布 。 令 


吃 1 和 和 2 
-| 中 | | 二 
J]n mxl 1 Xml 2 Ye nm-l 1x 骨 
忆 20 
局 
1 
有 = 。 ， 所 三 
-1 /mxl En 1x] 
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则 式 〈7-35) 可 简写 为 如 下 形式 


| 人 (7-36) 


E~N(0,o27 ) 本 

式 中 ， 了 称 为 观测 向 量 ，X 称 为 设计 和 矩阵， 它们 是 由 观测 数据 得 到 的 ， 是 已 知 的 ， 并 假定 于 为 人 
列 满 秩 ， 即 rand(X) = 六 ; 有 是 待 估计 的 未 知 参数 向 量 ; e 是 由 不 可 观测 的 随机 误差 得 到 的 。 | 
式 〈7-36) 称 为 多 元 线性 回归 模型 的 矩阵 形式 ， 亦 称 为 高 斯 -马尔 科 夫 线性 模型 ， 并 简 记 为 
(YY,Xp,c27 )。 

对 线性 模型 (Y, Xp,o27, ) 所 要 考虑 的 问题 主要 是 : 

1) 估计 D 与 ac" ， 从 而 建立 y 与 忆 , 交 ，| 的 关系 式 。 

2) 对 线性 模型 假设 及 6 的 某 种 假设 进行 检验 。 

3) 对 ?进行 预测 及 对 自 变 量 进 行 控制 。 


注意 : 假定 m > 六 。 


未 知 参数 估计 | 








常常 采用 最 小 二 乘法 寻找 B = (四 ,PP 的 估计 值 5 ， 使 得 满足 以 下 条 件 
> o -2 = mnO -2 (7-37) 
利用 微分 法 可 以 求解 式 (7-37)， 有 
Yo， -yb)m = 0,E = 0,1.…,m (7-38) 
所 ”名 


式 〈7-38) 变形 为 


yw 二 六 yunup -站 有 《7-39) 
三 ] 


i=]1 /=0 J=0N\ i=! 
用 符 阵 表示 为 
XT7=( XIX)p (7-40) 
可 得 
=(XTIX) XITT (7-41) 


有 2 评 关 方差 c 的 估计 | 
将 自 变 量 的 各 组 观测 值 代 入 回归 方程 ， 可 得 因 变 量 的 各 估计 值 〈 称 为 拟 合 值 ) 为 
艺 =( 太 , 广 ， 罗 )=XA 
称 
e< 了 -三 = 了 -Xp=[7-XCXIX)-IXT]=(C 一 瑟 7 (7-42) 
为 残 差 向 量 或 剩余 向 量 。 
式 中 ， 互 =(X 于 为 阶 宕 等 矩阵 ;了 7 为 天 阶 单位 矩阵 。 





O =eIe=(Y-Xh)IY-X 且 =7TU-E)7=7TY-pXTY 


为 剩余 平方 和 。 
由 于 OD=XP 且 (T- 互 站 =0， 则 
0. =ere=(-EOD)7T- 吾 XY -ED)=2E CT- 瑟 )E 
由 此 可 得 
E(eTe)= Eltr(sI(T-- 百 )s))=tr(T- 百 )E(csI))=a?trT 一 XOCXIX)XI) 
=a2(n 一 tr(XTX)XTX))=a2 人 (7 
其 中 ，tr(9) 表示 矩阵 的 迹 。 从 而 
0 一 ere (7-43) 





为 or 的 一 个 无 偏 估计 。 





1. 回归 关系 的 统计 推断 

给 定 因 变量 y 与 自 变 量 交 ,zx 的 关 组 观测 值 ， 利 用 前 述 方法 可 得 到 未 知 参数 8 和 
co 的 估计 ， 从 而 可 给 出 7 与 zx 之 间 的 线性 回归 方程 ， 但 所 求 的 回归 方程 是 否 有 意 
义 。 也 就 是 说 ，y 与 罗 ,xi 之 间 是 否 存在 显著 的 线性 关系 ， 还 需要 对 回归 方程 进行 检 
验 。 

(1) 建立 方差 分 析 表 

e 离 差 平方 和 的 分 解 。 

观测 值 , 思 ……，】 之 所 以 有 差异 ， 是 由 以 下 两 个 原因 引起 的 。 一 方面 是 当 》 与 
xx 之 间 确 有 线性 关系 时 ， 由 于 鸭 , 灾 ,xl 取 值 的 不 同 ， 而 引起 值 的 变化 ; 另 
一 方面 是 除 y 与 盖 xi 的 线性 关系 以 外 的 因素 ， 如 罗 ,…xz 对 的 非 线性 影响 及 


随机 因素 的 影响 等 。 记 了 = 上 上 > ， 则 数据 的 总 的 离 差 平方 和 


Sr 0 一 妨 ” (7-44) 
1=] 


反映 了 数据 六, 思 …… 罗 波动 性 的 大 小 。 
残 差 平 方 和 
Se =-》O,- 亩 《7s45) 


三 | 
反映 了 除了 与 为 ,，…xw 的 线性 关系 〈 即 六 ) 以 外 的 因素 引起 的 数据 六, 思 ……，)， 的 波动 。 
若 $S.=0， 则 多 个 观测 值 可 由 线性 关系 精确 拟 合 ，$. 越 大 ， 观 测 值 和 线性 拟 合 之 间 的 偏差 也 
越 大 。 
对 于 回归 平方 和 
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Se = 》 (万 一 甩 ? (7-46) 


| 


1=| 


可 证 明 上 广 = 亏 ， 故 sk 反映 了 线性 拟 合 值 与 它们 的 平均 值 的 总 偏差 ， 即 由 变量 刀 ,za，…， 全 
mo 的 变化 所 引起 的 % (G=12…, 由 的 波动 。 若 8 =0 ， 则 每 个 拟 合 值 均 相等 ， 即 


六 (=12，…, 几 不 随 zaz…sx， 的 变化 而 变化 ， 这 实质 上 反映 了 有 = 有 =…= 1， -=0。 
另 一 方面 ， 经 过 代数 运算 及 正规 方程 可 证 明 (证明 从 略 ) 
Sr = Sr 一 S. (7-47) 


因此 ，SA 越 大 ， 说 明 由 线性 回归 关系 所 描述 的 六 (=12,…,m) 的 波动 性 的 比例 就 越 大 ， 即 》 
与 ,，X 的 线性 关系 就 越 显 著 。 
另外 ， 通 过 抵 阵 运算 可 证 明 Sr ，S, 和 SS 有 如 下 形式 的 矩阵 表示 ， 


-Si -mL77=7r7_ILr 
3 刀 -Pr yj 下 了 了 一 2 (7-48) 
S. =ere=》 (一 及 =YTCT- 百 了 =JT7- TXT7 (7-49) 

i=l 

Sa _ 工 _ hxTy_ TYrT 
92 思 2 = 了 fa 1 PXT 了 -FJI (7-50) 


式 中 ，v 表示 一 个 元 素 全 为 1 的 m 阶 矩阵 。 瑟 =X(XIX)-LXT 为 关 阶 对 称 宕 等 矩阵 〈 可 验证 
瓦 * = 瑟 )，7 为 于 阶 单位 矩阵 。 

e 自由 度 的 分 解 。 

对 于 Sr ( 式 〈7-47))， 其 自由 度 也 有 相应 的 分 解 。 这 里 的 自由 度 是 指 平方 和 中 独立 变 


化 项 的 数目 。 在 Sr 中 ， 由 于 有 -个 关系 式 S1 = 》(y - 妃 ? = 0， 即 -三 (=12,…, 由 彼此 


=1 
不 是 独立 变化 的 ， 故 其 自由 度 为 ma-1。 
可 以 证 明 ，S. 的 自由 度 为 - 关 ，S 的 自由 度 为 m -1， 因 此 对 应 于 Sy 的 分 解 〈 式 
《7-47))， 它 们 的 自由 度 之 间 也 有 如 下 关系 
1-1= (2 一 m)+(m -TD) (75 辐 
《2) 线性 回归 关系 的 显著 性 检验 
为 检验 与 zx 之 间 是否 存 在 显著 的 线性 回归 关系 ， 即 检验 假设 
民 :局 = 帮 =…=0 =0 
嫩 : 至 少 有 某 一 个 8 =01<iE 和 六-1 
这 是 因为 若 鼠 成 立 ， 则 y= 房 +e， 即 ?与 六 , 吉 xz 之 间 不 存在 线性 回归 关系 。 基 于 上 
述 分析 ， 构 造 如 下 检验 统计 量 


(2 


及 
下 (7-53) 





当 已 , 为 真 时 ， 可 以 证 明天 ~ F(m -La-m) 。 由 上 述 对 回归 平方 和 Sn 的 讲解 可 知 ， 若 媚 。 为 
假 ， 则 忆 的 值 有 偏 大 的 趋势 。 因 此 ， 给 定 显 著 性 水 平 c， 查 己 分 布 表 得 临界 值 
天 (mm-La-m)， 计 算 正 的 观测 值 瓦 ， 若 而 < 到 (mm-ba-m ， 接 受 刀 ， 即 认为 了 与 
xx 1 之 间 存 在 显著 的 线性 回归 关系 。 

(3) 拟 合 优 度 的 测定 一 一 相关 系数 法 

和 一 元 线性 回归 分 析 类 似 ， 多 元 回归 也 可 以 用 一 个 “相关 系数 ” 尺 来 衡量 ， 即 用 回归 平 
方 和 Sa 在 总 平方 和 Sr 中 的 比例 来 衡量 ， 用 尺 代 替 7 


R- | 开 (7-54) 


称 为 相关 系数 。 它 的 意义 和 一 元 的 相关 系数 "一样 ，0 入 Rs<1。 

回归 方程 的 精度 用 剩余 标准 差 来 表 不 
二 《7-55 ) 

注意 : 当 作 了 整个 回归 方程 分 析 的 已 检验 后 ， 就 不 必 再 作 多 相关 系数 的 显著 性 研究 了 ， 
它们 实质 上 是 等 价 的 。 

2. 回归 参数 的 统计 推 岂 〈 偏 回归 系数 检验 ) 

回归 关系 显著 并 不 意味 着 每 个 自 变 量 如 (LSi 和 mm-D 对 y 的 影响 都 显著 ， 可 能 其 中 的 某 
个 或 某 些 自 变 量 对 ?的 影响 不 显著 。 一 般 来 说 ， 总 希望 从 回归 方程 中 剔除 对 y 的 影响 不 显著 
的 自 变 基 ， 从 而 建立 一 个 较为 简单 有 效 的 回归 方程 ， 以 便于 实际 应 用 。 因 为 当 一 个 回归 方程 
包含 有 不 显著 的 变量 时 ， 它 不 仅 对 利用 回归 方程 作 预 测 和 控制 带 来 麻烦 ， 而 且 还 会 增 大 少 的 
方 荔 ， 从 而 影响 预测 的 精度 。 为 此 ， 需 要 对 每 一 个 回归 系数 作 显 著 性 检验 ， 显 然 ， 若 某 个 自 
变量 辣 对 无 影响 ， 那 么 在 线性 模型 中 ， 它 的 系数 Bi; 应 为 零 。 因 此 ， 检 验 的 影响 是 否 显 
著 等 价 于 检验 假设 


一 





上 :Di =0; 艺 : Ji 关 0 (7-56) 
下 面 讲解 此 假设 的 检验 问题 。 
设 =(CXTX)-XTY 为 厅 的 最 小 二 乘 估计 ， 则 ELB) = 8 ， 因 此 ， 启 的 协 方差 矩阵 为 
Cov(p,j)=DJ)=E8-PB)8-HT 
因为 
E(J)=(XIX)XTEOID=OXTX) XIXO=H 
所 以 
Cov(pB.)=EH[CXIX) XI7-EOIICXKTX) XIT-ECOD)T) 
=(XIX)XTE{IZY-XPIF-XO [CIXD)XT 
=(XIX)-XTa27 X(OXTXD (7-57) 
= 02(XTX) 


由 式 〈7-43)、 式 〈7-49) 知 ， 一 :一 全 及 为 细 的 无 偏 估 计 ， 即 灵 = 屎 ， 因 此 以 








SC 及 二 扩 (XTIXD (7-58) 
作为 D(D 的 估计 。 可 以 证 明 


式 中 ，S(D) 为 8(D) 的 主 对 角 线 上 的 第 7 个 元 素 的 平方 根 。 由 此 ， 可 检验 假设 〈 式 〈7-56) )， 
忌 为 真 时 ， 由 式 〈7-59) 知 


1 = 包 一 区 7 一 7) (7-60) 
SC ) 
若 妃 为 假 ， 由 于 ED)=Pz0， 则 | 中 有 偏 大 的 趋势 。 在 显著 性 水 平 c 下 ， 查 表 得 
大 (2 一 m) 9 记 ! 的 观测 值 为 四 ? 检验 准则 为 
2 





若 |m | 如 (2 一 m)， 则 接受 书 
2 
2 


另外 ， 由 式 〈7-60) 可 求 得 5, 的 置信 水 平 为 1- c 的 置信 区 间 为 
房 +fa(n-mS(D) (7-61) 
2 


3. 关于 预报 值 的 统计 推断 
建立 回归 方程 除了 了 解 了 与 六 ,2…xw-l 的 相依 关系 外 ， 另 一 个 重要 应 用 就 是 进行 预 
报 。 
设 给 定 了 自 变 量 的 一 组 新 观测 值 xxo，…xow 1， 利用 回归 方程 可 设 因 变量 的 预报 
值 
为 = 房 + 房 i++ 房 xin+…+ 记 on 《7-62) 
为 实际 上 是 对 应 于 xxo，……oxomw-i 的 了 的 一 个 点 估计 。 在 实际 应 用 中 ， 更 感 兴趣 的 是 给 
出 》 的 真 值 轨 的 区 间 估 计 。 可 以 证 明 





为 - 切 
= 一 一 太 1 一 (区 = 和 3 ) 
3 人 
式 中 ， S( 轴 )= 天 DL+XL OCXIX)X ]。 (7-64) 


式 中 ， 太 = (Lxobxoxow 和 并。 由 此 ， 可 设 芳 的 一 个 置信 水 平 为 1- c 的 置信 区 间 为 
甸 土 如 (z 一 mm)S(J) 二 6359 
2 
【 例 7-4】 某 厂 生产 一 种 商品 的 销售 量 》 与 竞争 对 手 的 价格 、 本 厂 的 价格 如 有关， 其 


销售 记录 见 表 7-5。 试 根据 这 些 数据 建立 与 刁 、 况 的 关系 式 ， 对 得 到 的 模型 和 系数 进行 检 
验 。 























分 析 : 为 了 确定 一 种 商品 的 销售 量 与 价格 之 间 的 关系 ， 分 别 作 出 与 所 、 交 的 散 点 图 
(为 一 元 线性 散 点 图 )。 散 点 图 显示 它们 之 间 近 似 为 线性 关系 ， 因 此 可 设 定 y 与 、zo 的 关系 
为 二 元 线性 回归 模型 : ?= 房 +Pxn+Dr 。 

其 实现 的 MATLAB 程序 代码 如 下 


>> clear all; 

% 输 入 数据 并 作 散 点 图 ( 见 图 7-4) 

xl=[120 140 19%0 130 155 175 125 145 180 150]' 
x2=[100 110 90 130 2I0 10 250 270 300 250]'; 
y=[102 100 120 77 46 93 26 69 65 85]'; 
fgure; 

plot(x1.y,or,x2,y,+); 

% 作 二 元 线性 回归 

x=[ones(10,1),xl,x2]; 

[b,bint,rrint,stats]=regress(y,x); 

b,bintstats， 

% 作 残 差分 析 图 ( 见 图 7-5) 


figure; rcoplot(rrint); 


运行 程序 ， 输 出 如 下 : 


b = 
06.3176 
0.4139 
-0.2698 
bint = 
-32.3060 165.5411 
-0.2018 1.0296 
-0.4611 -0.0785 
stats 三 
0.6527 6.3786 0.0247 351.0445 





残 差 结 果 








50 100 150 200 250 300 


图 7-4 散 点 效果 图 图 7-5 ” 残 差 图 





回 归 分 


配 


结果 表明 ， 线 性 回归 方程 为 放 = 66.5176+0.4139x -0.2698x ， 可 决 系数 王 = 0.6527， 
刀 =0.0247<0.05， 故 回归 模型 成 立 。 


【 例 7-5】 


据 。 


某 销售 公司 将 其 连续 18 个 月 的 库存 占用 资金 情况 、 
薪酬 及 销售 额 等 方面 的 数据 作 了 汇总 〈 见 表 7-6)。 该 公司 的 管理 人 员 试 图 根据 这 些 数据 找到 全) 
销售 额 与 其 他 3 个 变量 之 间 的 关系 ， 以 便 进 行销 售 额 预测 并 为 未 来 的 工作 决策 提供 参考 依 


1) 试 建 立 销售 额 的 回归 模型 。 
2) 如 果 未 来 某 月 的 库存 占用 资金 为 150 万 元 ， 广 告 投入 预算 为 45 万 元 ， 员 工薪 酬 总 额 
为 27 万 元 ， 试 根据 建立 的 回归 模型 预测 该 月 的 销售 额 。 


Dlloli、 CI lw 一 


三 
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分 析 : 为 了 确定 销售 额 》 与 库存 占用 资金 嫉 、 


份 


表 7-6 库存 占用 资金 、 广 告 投 入 、 员 工薪 酬 、 销 售 额 


ae 
一 ww 


“ 告 投入 的 费用 、 员 工 











hi 
和 
~ 


已 
Am 
人 
人 
村 
i 
局 


《单位 : 万 元 ) 

销售 额 》 

1090.4 

1133 

1242.1 

1003.2 

1283.2 

1012.2 

24.8 21.5 1098.8 
8263 

Wi 

24.7 1554.6 
到 
243 1483.1 
5 294 1551.3 
[si 

26.5 2126:7 

2256.5 


“ 告 投 入 避 、 员 工薪 酬 国 之 间 的 关系 ， 


分 别 作 出 了 与 为 ， 了 与 如 ，) 与 为 的 散 点 图 。 散 点 图 显示 它们 之 间 近 似 为 线性 关系 ， 因 此 
可 设 定 了 与 为 ， 六 ，3 的 关系 为 三 元 线性 回归 模型 y= 羽 +P0+DRD + 。 
其 实现 的 MATLAB 程序 代码 如 下 : 


>> clear alj; 
% 输 入 数据 并 作 散 点 图 
A=[75.2 30.6 21.1 1090.4;77.6 31.3 21.4 ”1133;80.7 33.9 22.9 1242.1;76 29.6 21.4 


79.5 32.5 21.5 1283.2;81.8 27.9 21.7 1012.2;98.3 
74 33.9 22.4 


1003.2;.. 
24.8 21.5 1098.8;67.7 23.6 21 826.3;.… 
1003.3;151 27.7 24.7 ”1554.6;90.8 45.5 23.2 1199;102.3 42.6 24.3 





1483.1;… 


115.6 40 23.1 1407.1;1254 45.8 29.1 1551.3;137.8 SI1.7 ”24.6 1601.2;175.6 67.2 27.5 
上 交 二 
153.2 65 26.5 2126.7;174.3 65.4 26.8 ”2256.5]; 

figure;Ssubplot(221); 

plot(A(:,T),A(,4),*);title(' 销 售 额 与 库存 占用 资金 ); 

subpjlot(222); 


plot(A(:,2),A(:,4),o)ititle(' 销 售 额 与 广告 投入 9; 
Subplot(212); 
plot(A(:,3)A(,4),+9)ititle(' 销 售 额 与 员工 薪酬 总 额 ); 
%% 作 多 元 回归 

x=[ones(18,1) A(:,1:3)]; 
[bbint,rrint,stats]=regress(A(:,4),x); 

b,bint,stats， 

%% 预 测 

xl=[1 150 45 27]; 

y1=xl*b 

% 作 残 差 分 析 图 

figure(2); 


rcoplot(rrint); 


bint = 
-380.3603 ”904.4867 
4.3734 ”10.1743 
7.1649 ”20.7501 
-46.7796 ”37.9805 
Stats 三 
1.0e+004 # 
0.0001 0.0105 0.0000 1.0078 
了 二 
1.7624e+003 


结果 表明 ， 系 数 记 = 162.0632， 忆 = 7.2739， = 13.9575， =-4.3996， 且 ，D， 
尿 ， 忆 在 置信 水 平 为 0.95 下 的 置信 区 间 分 别 为 [-$80.3603 ，904.4867]、[4.3734 ,10.1743]、 
[7.1649, 20.7501]、[46.7796 ,37.9805]， 可 决 系数 r? = 0.0001， 闷 = 0.0000<0.05， 故 回归 模型 

了 =162.0632 + 7.27392xi 十 13.9575z 一 4.3996x 


成 立 。 当 未 来 某 月 的 库存 占用 资金 为 150 万 元 ， 广 告 投入 预算 为 45 万 元 ， 员工 薪酬 总 额 为 
27 万 元 时 ， 由 模型 预测 该 月 的 销售 额 为 1762.4 万 元 。 











数据 的 散 点 图 及 回归 模型 的 残 差分 析 图 如 图 7-6、 图 7-7 所 示 。 
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图 7-6 散 点 效果 图 网 7-7 残 差分 析 图 
【 例 7-6】 表 7-7 是 血压 与 年 龄 、 体 重 指数 、 吸 烟 习 惯 的 统计 数据 。 其 中 ， 吸 烟 习 司 用 


0 表示 不 吸烟 ，1 表示 吸烟 ， 体重 指数 =〈 体 重 (kg) /身高 (m)) 的 平方 。 试 建立 回归 分 析 
模型 ， 分 析 血 压 与 年 龄 、 体 重 指数 、 吸 烟 习 懒 的 关系 。 


表 7-7 血 讨 与 年 龄 、 体 重 指数 、 吸 烟 习惯 的 统计 数据 


尾 乓 
/mmHg 
































| 3 
上 


23 








分 析 : 为 了 确定 血压 与 上 述 3 个 指标 之 间 存 在 何 种 关系 ， 首 先 作 出 血压 与 年 龄 ， 血 压 与 
体重 指数 之 间 的 散 点 图 ， 如 图 7-8 和 图 7-9 所 示 。 
其 实现 的 MATLAB 程序 代码 如 下 : 


A=[144,.39,24.2,0;215,47.31.1,1;138,45,22.6,0;145,47,24.0,1;162,65,25.9,1;142,46.25.1,0;.… 
170,67,29.5,1;124.42.19.7,0;138,67.27.2,1;154,56,19.3,0;162,64,28.0,1;150,56,25.8,0;… 








140,59,27.3,0;110,34,20.1,0;128,42,21.7,0;130,48,22.2,1;135,45,27.4,0;114,18,18.8,0;… 
1 16,20,22.6,0;124,19,21.5,0;136,36,25.0,0;142,50,26.2,1;120,39,23.5,0;120,21,20.3,0;… 
160,44,27.1,1;138,53,28.6,1;144,63,28.3,0;130,29,22,1;125,25,25.3,0;175,69,27.4,0]; 


figure; 
plot(A(:,1),A(:,2).*";title(' 血 压 与 年 龄 的 散 点 图 ); 
figure(2); 
plot(A(:,1),A(:,3),o)ititle(' 血 压 与 体重 指数 的 散 点 图 ; 
% 作 多 元 回归 

X=[ones(30,1) A(:,2:4)]; 
[b,bintrrint,stats]=regress(A(:,I),x); 

b,bint,stats， 


租 卜 与 年 龄 的 敬 点 图 


























更 站 血压 与 体重 指数 的 散 点 图 
| 。 幸 35; 一 一 一 一 一 
60 本 ] 
4 区 
50 人 呈 二 30 Ge - 
40 和 “ 了 D 吹 cc | 
忆 本 [ D 二 
本 25 ， 
30 本 ) 吕 
人 20 上 
20 区 站 O 
铅 世 一 -一 一 se 4 En 15L_ SS | 
100 120 140 160 180 200 220 100 120 140 160 180 200 220 
7-8 血压 与 年 龄 的 散 点 图 图 7-9 血压 与 体重 指数 的 散 点 图 
从 图 中 可 以 看 出 以 下 几 点 : 


1) 随 着 年 龄 的 增长 血压 有 增高 的 趋势 ， 随 着 体重 指数 的 增长 ， 血 压 也 有 增高 的 趋势 。 
2) 从 总 体 上 看 ， 血 压 与 年 龄 、 血 压 与 体重 指数 存在 一 定 的 线性 相关 性 ， 所 以 可 建立 多 
元 线性 回归 模型 ; 
》= 内 +D3+DiD + +E 
式 中 ， 回 归 系数 友 ,B,P2,D 由 数据 估计 ，< 是 随机 误差 。 
其 次 ， 求 出 回归 系数 记 ,B,D,p, 的 估计 值 与 置信 区 间 ， 并 求 出 相应 的 统计 量 ， 所 得 结 
果 见 表 7-8。 


表 7-8 ”回归 模型 的 系数 、 系 数 置信 区 间 与 统计 量 


问 归 系数 估计 值 












问 归 系数 回归 系数 曾 信 区 剖 
[1.5461 83.5619] 
[-0.0173 ”0.8612] 
[1L.1132 。 5.3153] 


[-2.9765 ”20.7623] 









姓 = 0.6661， 已 = 17.2900，P< 0.0001，e2 = 180.2614 


从 表 7-8 可 知 ， 由 于 忆 ， 甩 的 置信 区 间 包 含 零点 ， 因 此 模型 需要 改进 ， 为 此 作出 残 差 
与 残 差 置 信 区 间 的 图 形 〈 见 图 7-10)。 

















此 时 ， 从 图 形 可 见 到 第 二 个 点 与 第 十 个 点 是 异常 的 ， 剔 除 这 两 点 ， 再 次 进行 回归 ， 得 到 
改进 数据 后 的 回归 模型 的 系数 、 系 数 置信 区 间 与 统计 量 结果 ， 见 表 7-9。 


绘制 残 差 效 果 图 





残 差 效 果 
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图 7-10 残 差 图 


表 7-9 改进 后 的 回归 模型 的 系数 、 系 数 置 信 区 间 与 统计 量 
回归 系 数 估计 值 











回归 系数 曾 信 区 间 
[29.9064 ”87.1138] 






六 = 0.8462， 广 = 44.0087， 疡 < 0.0001、e3 = 53.6604 


从 表 中 可 知 ， 这 时 的 所 有 参数 置信 区 间 不 包含 零点 ， 灭 统计 量 增 大 ， 可 决 系数 从 0.6855 

增 大 到 0.8462， 得 到 回归 模型 为 
了 = 58.5101+ 0.4303x +2.3449x +10.3065x 

最 后 ， 对 模型 进行 检验 ， 说 明 模 型 的 合理 性 。 

1) 残 差 的 正 态 检验 。 由 jbtest 检验 ，j=0 表明 残 差 服从 正 态 分 布 ， 进 而 由 /上 检验 可 知 
彤 =0， 刀 =1， 故 残 差 服从 均值 为 零 的 正 态 分 布 。 

2) 残 差 的 异 方差 检验 ， 也 称 为 戈 德 菲 尔 德 - 匡 特 〈Goldfeld-Quant) 检验 。 

将 28 个 数据 按 从 小 到 大 的 顺序 排列 ， 去 掉 中 间 的 6 个 数据 ， 得 到 屎 统计 量 的 观测 值 为 
厂 =1.6604， 由 F(7,7)=3.79， 可 知 卫 =1.6604<3.79， 故 不 存在 异 方差 。 

3) 残 差 的 自 相 关 性 检验 ， 也 称 为 D-W 检验 。 


ye 一 6r-i ) 


通过 计算 D 玉 = 皖 ， 得 到 D 玉 =1.4330， 查 表 后 dl=0.97，du=1.41， 由 于 


2 
1 一 | 


1.41=du<D1.4330<4-du=2.39， 可 知 残 差 不 存 在 自 相关 性 。 
其 实现 的 MATLAB 程序 代码 如 下 ; 















[0.1273 
[0.8509 
[3.3878 


0.7332] 
3.8389] 
17.2253] 













A=[144,39,.24.2,0;215,47,31.1,1;138,45,22.6,0;145,47,24.0,1;162,65,25.9,1;142,46,25.1,0;… 
170,67,29.5,1;124,42,19.7,0;158,67,27.2,1;154,56,19.3,0;162,64,28.0,1;150,56,25.8,0;.…. 
140,.39,27.3,0;110,34,20.1.0;128,42,21.7,0;130,48,22.2,1;135,45,.27.4,0;114,18,18.8,0;… 
1 16,20,22.6,0;124,19,21.5,0;136,36,25.0,0;142,50,26.2,1;120,39,23.5,0;120,21,20.3,0;… 
160,44,27.1,1;158,53,28.6,1;144,63,28.3,0;130,29,22,1;125,25,25.3,0;175,69,27.4,0]; 

% 求 多 元 回归 的 参数 估计 

[b,binbrrinbsj=regress(A(:,1),[ones(30,1),A(:,2:4)]); 

S2=sum(r.^2)/(30-3-1) ”% 计 算 残 差 平 方 和 

b,bints % 显 示 结 果 

rcoplot(rnrint) 。”% 作 残 差 与 残 差 置信 区 间 的 图 形 

% 剔 除 并 党 点 并 执行 回归 程序 

Al=A([1,3:9,11:30],:); 。 % 剔 除 异 常 点 

[b2,bint2,r2,rint2,s1]=regress(Al(:,1),[ones(28,1),A1(:,2:4)]) 

% 残 差 检 验 程 序 

[h,p]=jbtesttr2) ”% 正 态 性 检验 

[hl,p1]=ttest(r2,0)  %t 检验 

% 红 方差 检验 

[ci]=sort(Al(:,D)) %% 将 样本 值 按 被 解释 变量 从 小 到 大 的 顺序 排序 

A2=Al(i,2:4); 


[bl0,bintl0,rl0,rint10,s10]=regress(c(1:11),[ones(11,1),A2(1:11.)]); 
[blh,bintlh,rlhvrintlh,slhj=regress(c(18:28),[ones(11,1),A2(18:28,:)]); % 取 后 11 个 点 作 回归 
yfl=sum(rlh.^2)/sum(r10.^2) % 计 算 F 检验 统计 量 值 
% 自 相关 性 检验 
dw=sum(diffr2).^2)/sum(r2.^2) ”% 计 算 DW 统计 量 
1) 回归 模型 的 基本 假定 : 利用 样本 数据 估计 回归 模型 中 的 参数 ， 为 了 选择 适当 的 参数 
估计 方法 ， 提 高 估计 的 精度 ， 通 常 需要 事先 对 模型 的 随机 误差 项 和 解释 变量 的 特性 进行 假 
设 。 
假设 1 解释 变量 是 非 随机 的 或 固定 的 ， 且 各 区 之 间 互 不 相关 〈 无 多 重 共 线 性 )。 
假设 2 ”随机 误差 项 具有 零 均 值 、 同 方差 及 序列 不 相关 性 ， 即 
E(e)=0，F=E(Ec)=a?， Cov(Ei,Ej))=0 ， 关 广 五 太 =]1 2 


假设 3 ”解释 变量 与 随机 项 不 相关 Cov(ei,e))= 0 。 


假设 4 随机 误差 项 满足 正 态 分 布 s ~ N(0,a2) 。 

将 满足 这 些 假设 的 回归 模型 称 为 古典 回归 模型 。 声 观 地 看 ， 这 些 假 设 的 作用 是 便于 分 离 
回归 模型 中 每 个 因素 的 单独 影响 ， 在 回归 分 析 的 参数 估计 和 统计 检验 理论 中 ， 许 多 结论 都 以 
这 些 假 设 作 为 基础 。 换 名 话说， 这 些 假 设 的 成 立 与 否 将 直接 影响 回归 分 析 中 统计 推断 的 结 
论 。 

2) 对 于 实际 问题 ， 在 建立 模型 时 应 注意 以 下 问题 ; 

e 模型 中 是 否 应 该 具有 常数 项 ， 这 取决 于 该 常数 的 实际 意义 。 

e 对 于 涉及 有 关 专 业 的 问题 ， 需 请 教 有 关 专 家 决定 自 变量 的 取舍 。 对 于 本 题 的 结果 ， 医 

学 专家 认为 模型 中 的 常数 无 法 给 出 合理 的 解释 ， 此 外 吸烟 与 血压 的 高 低 没 有 关系 。 


蝗 回 归 分 析 


间 





因此 可 以 考虑 建立 血压 与 年 龄 、 体 重 指数 之 间 的 二 元 回归 模型 。 
【 例 7-7】 假设 线性 回归 方程 为 ?= 罗 -1.2322 +2.235 +2x24 +4x5 +3.792xe ， 试 生成 
120 组 随机 输入 值 x ， 计 算出 输出 向 量 了 。 以 这 些 信息 为 已 知 ， 观 察 是 否 能 由 最 小 二 乘法 得 
出 待定 系数 wa 的 估计 值 ， 并 得 出 置信 区 间 。 
其 实现 的 MATLAB 程序 代码 如 下 : 


>> a=[1,-1.232,2.23,2,4,3.792] ; 
>> X=randn(120,6); 

>> y 一 Xeai . 

>> a1=inv(X'*X)#X*y 


运行 程序 ， 输 出 如 下 : 


al 一 
1.0000 
-1.2320 
2.2300 
2.0000 
4.0000 
3.7920 


可 见 ， 因 为 输出 值 完 全 由 精确 计算 得 出 ， 所 以 线性 回归 参数 估计 的 误差 是 极其 微小 的 ， 
可 以 忽略 。 用 regress 函数 还 可 以 计算 出 置信 水 平 为 0.98 的 置信 区 间 。 


>> [aaint]=regress(y,X,0.02) 
运行 程序 ， 输 出 如 下 : 


自 三 


1.0000 

-1.2320 
2.2300 
2.0000 
4.0000 
3.7920 

aint = 

1.0000 1.0000 

-1.2320 -1.2320 
2.2300 2.2300 
2.0000 2.0000 
4.0000 4.0000 
3.7920 3.7920 


假设 观测 的 输出 数据 样本 噪声 污染 ， 则 可 以 给 出 输出 数据 样本 到 加 上 N(0,0.5) 区 间 的 正 
态 分 布 噪声 ， 这 时 可 以 用 下 面 的 语句 进行 线性 回归 分 析 ， 得 出 待定 系数 向 量 的 估计 参数 及 置 
信 区 间 ， 通 过 errorbar 函数 还 可 以 计算 出 图 形 绘制 参数 估计 的 置信 区 间 ， 如 图 7-11a 所 示 。 

其 实现 的 MATLAB 程序 代码 如 下 : 





>> yhat=y+sqrt(0.5)*randn(120,1); 


>> [aaintj=regress(yhat,X,0.02) 
运行 程序 ， 输 出 如 下 : 
a= 1.0974 
-1.1740 
2.2491 
2.0168 
4.0086 
3.8107 
aint 一 


0.9304 ].2645 
-1.3299 -1.0181 
2.0914 2.4067 
1.8694 2.1643 
3.8553 4.1619 
3.6488 3.9727 


>> errorbar(1:6,aaint(:,1)-aaint(:,2)-a) 


所 以 减 小 噪声 的 方差， 假设 方差 为 0.1， 则 可 以 得 出 新 噪声 下 参数 估计 的 结果 ， 如 图 7-1lb 


所 示 。 显 然 ， 估 计 出 的 参数 更 精确 。 
其 实现 的 MATLAB 程序 代码 如 下 ; 
>> yhat=y+sqrt(0.1)*#randn(120,1): 


>> [aaint]=regress(yhatbX,0.02); 
>> errorbar(1:6,aaint(:,])-aaint(:,2)-3a) 








6 一 一 一 -一 和 一 一 
由 了 引 
4| 大 一 | 4| 
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N 下 | N 
0 NE | 0 
Y 1 
2 一 一 一 一 人 
站 2 6 8 0 2 
a) b) 


图 7-11 参数 估计 及 置信 区 间 图 形 表示 
a) 噪声 o =05 bj) 吧 访 cz2=0.1 


7.3 ” 偏 最 小 二 乘 回 归 分 析 


经 典 多 元 线性 回归 分 析 〈MLR) 是 研究 变量 之 间 的 相关 关系 的 基本 方法 。 但 是 ， 下 面 两 
个 问题 制约 着 其 应 用 的 效能 ， 一 是 样本 容量 要 求 很 高 ， 一 般 应 大 于 30 或 大 于 自 变 量 数 的 





5~10 倍 ; 二 是 消除 变量 间 多 重 相 关 性 很 难 。 若 在 变量 之 间 存 在 严重 的 多 重 相 关 性 ， 将 对 回 
归 建 模 与 模 翅 分 析 工 作 带 来 如 下 危害 。 

e 在 自 变量 之 间 存 在 严重 的 多 重 相关 性 的 情况 下 ， 将 造成 回归 资料 矩阵 的 严重 病态 性 ， 
进而 使 模型 参数 的 最 小 二 乘 估计 失真 。 回 归 系 数 的 估计 方差 将 随 着 自 变量 之 间 相 关 
程度 的 不 断 增 强 而 迅速 扩大 ， 回 归 系 数 的 估计 值 对 样本 数据 的 微小 变化 变 得 非常 敏 
感 ， 回 归 系 数 估计 值 的 稳定 性 将 变 得 很 差 。 

e 在 自 变量 高 度 相 关 的 条 件 下 ， 用 最 小 二 乘法 得 到 的 回归 模型 其 回归 系数 的 物理 含义 很 
难 解释 。 许 多 从 专业 知识 上 看 似乎 十 分 重要 的 变量 ， 其 回归 系数 的 取 值 变 得 微 不 足 
道 ， 甚 至 还 会 出 现 回归 系数 的 符号 与 人 们 的 实际 概念 完全 相反 的 现象 。 

e@ 存在 严重 的 多 重 共 线性 影响 时 ， 回 归 系 数 的 统计 检验 将 难以 通过 。 

回归 建 模 过 程 中 必须 要 解决 多 重 共 线 性 问题 。 常 见 的 方法 是 用 逐步 回归 法 来 进行 变量 的 
筛 选 ， 去 掉 不 太 重 要 的 相关 性 变量 。 然 而 ， 逐 步 回 归 法 存在 下 列 问 题 : 一 是 缺乏 对 变量 间 多 
重 相关 性 进行 判定 的 十 分 可 靠 的 检验 方法 ;二 是 删除 部 分 多 重 相关 变量 的 做 法 常 导 致 增 大 模 
型 的 解释 误差 ， 将 本 应 保留 的 系数 信息 舍弃 ， 使 得 接受 错误 结论 的 可 能 及 做 出 错误 决策 的 风 
险 不 断 增长 。 

符 克服 变 莉 多 重 相 关 性 对 系统 回归 建 模 干扰 的 过 程 中 ，1983 年 ， 瑞 典 的 S.Wold 和 
C.Albano 等 人 提出 了 偏 最 小 二 乘 回归 分 析 (PLS) 方法 。PLS 方法 开辟 了 一 种 有 效 的 技术 途 
径 ， 在 处 理 样本 容量 小 、 解 释 变 量 个 数 多 、 变 量 间 存在 严重 的 多 重 相关 性 问题 方面 具有 独特 
的 优势 ， 并 且 可 以 同时 实现 回归 模型 、 数 据 结 构 简 化 及 两 组 变量 间 的 相关 分 析 。 


偏 最 小 二 乘 回归 方法 的 数据 结构 与 建 模 思想 





设 有 4 个 因 变 量 几 , 思 ，… 多 与 尸 个 自 变量 %,2…xp ， 为 了 研究 因 变量 与 自 变量 的 统计 
关系 ， 观 测 了 2 个 样本 点 ， 由 此 分 别 构成 了 自 变量 与 因 变 量 的 “样本 点 x 变量” 型 的 数据 矩 
阵 ， 记 为 

发 =( 苛 )mxp = 人 (六 op) 
和 
王 =( 力 )wy 三 (My) 

PLS 方法 在 建 模 过 程 中 采用 了 信息 综合 与 筛选 技术 ， 不 直接 考虑 因 变 量 系统 了 对 自 变 量 
系统 X 的 回归 模型 ， 而 是 从 自 变 量 系统 忒 中 逐步 提取 六 个 对 自 变量 系统 环 和 因 变 量 系统 了 
都 具有 最 佳 解释 能 力 的 新 综合 变量 1, 声 ，… 加 (ms 和 PP) ， 亦 称 为 主 成 分 。 首 先 建立 六 对 主 成 
分 如 和 的 MLR 回归 方程 ， 然 后 还 原 为 攻关 于 原 自 变量 系统 zz…xzp 的 PLS 回归 方 
程 ， 其 中 上 =12,…,9g。 

PLS 方法 的 关键 性 技术 是 提取 主 成 分 ， 基 本 思想 如 下 。 

第 一 步 ， 分 别 在 半 和 了 中 提取 第 一 主 成 分 4 和 丰 ， 并 且 要 求 : 

人 主 成 分 的 代表 性 ， 吉 和 切 应 尽 可 能 多 地 携带 各 自 变 量 系统 中 的 变异 信息 。 

@@) 主 成 分 的 相关 性 ， 站 和 四 的 相关 程度 能 够 达到 最 大 ， 即 二 对 因 变 量 系统 有 很 强 的 解 
释 能 力 。 - 








这 两 个 要 求 表明 ，PLS 方法 主 成 分 的 提取 与 主 成 分 分 析 中 主 成 分 的 提取 既 有 相似 之 处 
(代表 性 要 求 )， 又 有 不同 的 地 方 〈《 相 关 性 要 求 )。 

第 一 步 ， 在 第 一 个 主 成 分 5 和 如 被 提取 后 ， 分 别 实施 

GO) 各 自 变量 对 自 变量 系统 第 一 主 成 分 的 回归 〈 即 用 4 表示 光 )。 

包 各 因 变 量 对 自 变 量 系 统 第 一 主 分 成 的 回归 〈 即 用 = 表示 了 )。 

如 果 回归 方程 已 经 达到 满意 的 精度 ， 则 算法 终止 ， 和 否则 ， 将 利用 万 被 5 解释 后 的 残余 信 
息 ， 以 及 工 被 和 解释 后 的 残余 信息 进行 第 一 轮 的 成 分 提取 。 如 此 往复 ， 直 到 达到 一 个 较 满意 
的 精度 为 止 。 

偏 最 小 二 乘 回 归 方法 的 算法 步骤 | 

首先 要 进行 预备 分 析 ， 日 的 是 判断 自 变量 〈 因 变量 ) 是 否 存 在 多 重 相关 性 ， 判 断 因 变量 
与 日 变量 是 否 存在 相关 关系 ， 进 而 决定 是 否 需要 采用 PLS 方法 建 模 。 具 体 计算 方 法 是 ， 记 和 矩 
阵 Z=(X,Y)， 求 的 各 列 数据 之 间 的 简单 相关 系数 ， 然 后 ， 按 下 列 步 又 建立 偏 最 小 一 乘 回 
归 方 程 。 

1. 标准 化 原始 数据 

标准 化 后 的 数据 矩阵 记 为 妃 = (e )。， 和 丽 =( 思 )。 ， 其 中 








ei = 二 二 ， = 2 =12,…, 记 (7-66) 
本 

方 = 1=1.2…, 有 = 2 (7-67) 
引 


式 〈7-66) 和 式 (7-67) 中 ， 玖 ， 克 分 别 为 矩阵 兴 与 下 的 第 7 列 数据 的 半 均 值 ，sx ，sy 
分 别 为 德 阵 X 与 世 的 第 7 了 列 数据 的 标准 美 。 
2. 建立 回归 方程 
《1) 建立 关于 主 成 分 的 MLR 回归 方程 
求 出 而 在 和 上 的 MLR 回归 方程 
而 =1 下 十 访 林 十 十 帮 并 十 ， (7-68 ) 
(2)》 变换 为 关于 标准 化 变量 的 PLS 回归 方程 
将 六 = 巨 -no = Bow'G=12…,m) 代 入 式 (7-68)， 得 到 玉 关 于 羽 的 PLS 回归 方程 
而 = 太 几 三 二 条 十 二 orT 二 三 ， (7-69) 


六 
其 中 ， 内 =T [CC-weoDwG=12…,m)， Z 为 单位 矩阵 。 


上 二 | 
(3) 还 康 为 关于 原始 变量 的 PLS 回归 方程 
将 式 〈7-69) 还 原 成 关于 原始 变量 的 PLS 回归 方程 


已 忆 

全 Si Wy 

记 -az - 史 要 | 袜 w 最 。 ， 大 =12…;,9 
远 | 1 忆 ] 4 





其 中 ， 四 是 托 阵 as = 》 wyr; 的 第 人 个 列 向 量 ，mw 是 的 第 ;个 分 量 。 
je! 


3. 主 成 分 提取 
(1) 第 一 轮 主 成 分 提取 
求 矩 阵 形 " 厂 忆 书 , 的 最 大 特征 值 所 对 应 的 单位 特征 向 量 w ， 得 自 变 量 的 第 一 个 主 成 分 





看 三 巨 om (7-70) 
求 矩 阵 到 瓦 本 柜 , 的 最 大 特征 值 所 对 应 的 单位 特征 向 量 c ， 得 因 变 量 的 第 一 个 主 成 分 
=ci (7-71) 
求 残 差 矩 阵 
瑟 = 五, 一 二 PP (7-72) 
到 = 硬 一 68 (7-73) 
式 (7-72) 中 ， 员 = 瑟 4， 式 (7-73) 中 ， = 瑟 丰 。 


这 上 
在 PLS 方法 中 ， 称 中 为 模型 效应 权重 ，ei 为 因 变 量 权重 ， 局 为 模型 效应 载荷 量 。 
(2) 新 一 轮 主 成 分 提取 
令 局 = 轧 ， 而 = 五 ， 回 到 (1)， 对 残 差 矩阵 进行 新 一 轮 的 主 成 分 提取 和 回归 分 析 。 
设 第 步 的 计算 结果 为 


而 三 五 ii 《7-74) 

邮 三 Er-iCh (7-75) 

已, = 一 态 耻 (7-76) 

瓦 = 瓦 ， 一 态 丰 (7-77) 
局 pi 下 








式 7-74) 一 式 (7-77) 中 ， 太 =12… 正 ， 曾 委 Tank( 包 ) ， 隐 = 一 人 5， 而 = 二 5 
加 |o| 

(3) 主 成 分 提取 的 终止 准则 

PLS 方法 不 需要 选用 所 有 的 主 成 分 建 模 ， 而 是 采用 截 尾 的 方法 ， 即 仅 选择 前 六 个 主 成 分 
四 访 ，… 加 ， 就 可 以 得 到 一 个 预测 性 能 较 好 的 模型 。 因 此 ， 在 主 成 分 提取 的 每 一 轮 计 算 中 ， 
都 要 对 是 否 得 到 了 足够 多 的 主 成 分 进行 判断 。 

常用 的 判断 准则 有 交叉 有 效 性 准则 和 复 测定 系数 准则 。 

定义 7-1 (交叉 有 效 性 ) 称 


为 主 成 分 媚 关 于 因 变 量 系统 了 的 交叉 有 效 性 。 
上 式 中 各 参数 的 意义 如 下 : PRESS, 是 从 所 有 靖 个 样本 点 中 舍弃 某 个 样本 点 xO(i= 2, 站 
之 后 ， 用 剩余 的 za-1 个 样本 点 拟 合 出 含 P 个 主 成 分 的 回归 方程 ， 再 对 xO(i=12, …, 站 点 











进行 预测 的 预测 误差 平方 和 。 更 详细 一 些 ， 记 太 ，， 为 在 样本 点 xm 上 的 预测 值 ， 


PRESS，- = 六 py -和 -了 为 风 的 预测 误差 平方 和 ， 则 PRESS, = 》'PRESS， 就 是 了 的 预测 


三 | 


误差 平方 和 。 
SSuw_) 是 用 所 有 呈 个 样本 点 拟 合 出 的 含 -1 个 主 成 分 的 回归 方程 的 拟 合 误差 平方 和 。 更 


详细 一 些 ， 记 义 jn 为 蕊 在 样本 点 xm 上 的 拟 合 值 ，SSw yy = 》 0Oy -和 nn) 为 y 的 拟 合 
这 | 


误差 平方 和 ， 则 SS = 六 ss， ， 就 是 了 的 拟 合 误差 方 和 


交叉 有 效 性 是 对 新 增 主 成 分 能 否 对 模型 的 预测 功能 有 显著 改进 的 判断 指标 。 
若 O?: >1- 0.952 = 0.0975 ， 则 认为 主 成 分 六 的 边际 贡献 是 显著 的 。 
定义 7-2 ( 复 测定 系数 ) “ 称 


六 (kxleP) 


OF: = 大 =] 
”ef 
为 自 变量 系统 万 被 提取 的 变异 信息 量 。 称 
放 
> (| 和 全 >x 居 上 ) 
RR2 = El 
| 


为 回归 方程 的 复 测定 系 数 。 

复 测定 系数 表示 所 提取 的 主 成 分 的 可 解释 变异 信息 占 总 变异 信息 的 百分比 。 

当 A=， 复 测定 系数 Ro 的 值 足够 大 时 ， 可 在 第 mm 步 终 止 主 成 分 的 提取 计算 。 通 党 
娠 0.85 即 可 。 

偏 最 小 二 乘 回 归 方法 的 辅助 分 析 

PLS 方法 除了 前 面 讲 的 建 模 技术 ， 还 包括 PLS 辅助 分 析 技术 ， 可 以 在 获得 一 个 更 为 合理 
的 回归 模型 的 同时 ， 完 成 一 些 类 似 于 主 成 分 分 析 和 典型 相关 分 析 的 研究 内 容 ， 提 供 更 加 让 
富 、 深 入 的 系统 信息 。 

1. 自 变 量 和 因 变 量 之 间 的 相关 关系 分 析 

在 一 元 回归 分 析 中 ， 为 了 判定 自 变 量 和 因 变 基 之 间 的 关系 ， 经 常 采 用 散 点 图 来 作 直观 的 
分 析 ， 简 单 而 有 效 。 这 种 方法 在 多 元 回归 分 析 中 遇 到 困难 : 多 维 数据 构成 了 一 个 超 平面 ， 难 
以 作 直观 观察 ， 各 自 变量 间 相互 关联 ， 不 能 将 变量 简单 地 分 割 开 来 分 析 。 

PLS 方法 的 右 /u 平面 图 功能 使 这 一 点 成 为 可 能 。 

在 PLS 方法 中 ， 自 变量 集合 二 和 因 变 量 集合 Y 之 间 的 相关 关系 可 以 通过 上 和 丰 的 相关 
关系 得 到 反映 。 因 此 ， 绘 制 以 二 为 横 坐标 ，z 为 纵 坐标 的 /au 平面 图 ， 绘 出 第 一 主 成 分 偶 





回 归 分 本 





对 (0,a) 的 观测 样本 散 点 图 。 如 果 所 有 样本 点 上 (六 (DO) GE=12,…, 站 在 图 中 的 排列 近似 于 
一 条 直线 ， 则 说 明志 和 了 之 间 存 在 着 较 强 的 相关 关系 ， 这 时 采用 PLS 方法 建立 了 对 克 的 线 
性 模型 才 会 是 合理 的 。 

2. 主 成 分 对 变量 的 解释 能 力 的 评价 

在 PLS 计算 过 程 中 ， 要 求 所 提取 的 自 变量 主 成 分 问 尽 可 能 多 地 代表 万 的 变异 信息 ， 尽 
可 能 与 上 相关 联 ， 解 释 了 中 的 信息 。 为 了 测量 户 对 长 和 了 的 解释 能 力 ， 现 给 出 如 下 定义 。 

定义 7-3“〈 自 变量 的 主 成 分 对 自 变量 系统 的 各 种 解释 能 力 ) ”GO 称 主 成 分 记 与 自 变 量 
x) 的 简单 相关 系数 的 平方 

Rd(xj3t)= 产 (35) 

为 六 对 某 个 自 变量 z; 的 解释 能 力 。 

@) 称 

Rd(X3 -六 Rdtoin) 
J=! 

为 雪 对 自 变 量 系统 克 的 解释 能 力 。 

@@ 称 

Rd(xp3nt)= y RdGoim) 
Ah=! 


为 由 坟 … 如 对 某 个 自 变 量 x) 的 累计 解释 能 力 。 
由 称 
RdOG0Doest)= RdCX0) 
h=|! 
为 上 力 … 对 自 变 量 系统 克 的 累计 解释 能 力 。 
定义 7-4〈 自 变量 的 主 成 分 对 因 变 量 系统 的 各 种 解释 能 力 )  @ 称 主 成 分 六 与 因 变量 
y 的 简单 相关 系数 的 平方 
RdO ii)= 产 (5) 
为 必 对 某 个 因 变 量 ， 的 解释 能 力 。 
@ 称 
Rd(y:r ) -> Rdooin) 
7=l 
为 如 对 因 变 量 系 统 了 的 解释 能 力 。 
@@ 称 
RdO7 Rn 庆 和 ) 二 2》 RdO3n) 
/=1 


为 必 D，… 姻 对 某 个 自 变量 的 累计 解释 能 力 。 








Rd(3aP 和 tm)= > Rd(Zn) 
力 =| 


为 由 总 姻 对 因 变 量 系 统 字 的 累计 解释 能 力 。 
3. 自 变 量 对 因 变 量 系统 的 解释 能 力 
在 PLS 方法 中 ， 自 变量 对 因 变 量 的 解释 能 力 是 以 变量 投影 重要 性 指标 〈VIP) 来 测度 的 。 
定义 7-5〈 自 变量 对 主 成 分 的 边际 贡献 ) 。” 称 


2 村 5 2 
VIP, = ROOTJ 亿 Rd(50 


为 自 变 量 ” 对 主 成 分 户 的 边际 贡献 。 其 中 ，ww 是 主轴 w 的 第 了 个 分 量 :， Rd(7;m) ， 
Rd(20P…tm) 分别 是 户 对 了 的 解释 能 力 和 各 各 对 了 的 累计 解释 能 力 。 

VIP, 定义 式 的 意义 基于 这 样 一 个 事实 : 由 于 xz 对 了 的 解释 是 通过 媚 来 传递 的 ， 如 果 访 
对 工 的 解释 能 力 很 强 ， 而 zx 在 构造 户 时 又 起 到 了 相当 重要 的 作用 ， 则 z 对 工 的 解释 能 力 就 被 
视 为 很 强 。 也 就 是 说 ， 如 果 在 Rd( 六 性 ) 值 很 大 时 的 成 分 和 上， 取得 很 大 的 值 ， 则 *， 对 解 
释 工 就 有 很 重要 的 作用 。 


另外 ， 容易 证 明 》 VIP? = 所 以 ， 对 于 疡 个 自 变 基 x (1 =12…,P) ， 如 果 它 们 在 解 
/=| 
释 了 时 的 作用 都 相同 ， 则 所 有 VIP) 均等 于 1; 否则 ， 对 于 VIP，(VIP>1) 很 大 的 x ， 它 在 解 
释 因 变 量子 时 就 有 更 加 重要 的 作用 。 
统计 上 县 箱 提 供 了 两 个 主 成 分 分 析 函 数 princomp 和 pcacov。 
(1) princomp 函数 


[COEFF,SCORE] = princomp(X) 
[COEFF,SCORE,latent] = princomp(X) 
[COEFF,SCORE,latent,tsquare] = princomp(X) 
[.…] = princomp(X,econ) 


其 中 , X 是 mx 书 的 原始 数据 矩阵 ，COEFF 为 返回 主 成 分 的 系数 ， 为 严 阶 和 矩阵， 每 一 列 
为 一 个 主 成 分 的 系数 ，SCORE 为 返回 原 数据 在 新 坐标 系 中 的 新 数据 ，latent 返回 协 方差 矩阵 
三 的 特征 值 ，tsquare 返回 每 个 数据 点 的 Hotelling 统计 量 。 
(2) pcacov 函数 
其 调用 格式 如 下 ; 
COEFF = pcacov(V) 
[COEFF,latent] = pcacov(V) 


其 中 ， 北 是 协 方差 矩阵 ; COEFF 为 返回 主 成 分 ，latent 为 返回 协 方差 矩阵 尼 的 特征 值 。 
统计 工具 箱 自 带 了 数据 cities.mat， 它 是 反映 美国 329 个 城市 生活 水 平 的 9 个 不 同 的 指标 











数据 。 这 9 个 指标 包括 气候 、 住 房 、 健 康 、 犯 罪 率 、 交 通 、 教 育 、 艺 术 、 娱 乐 及 经 济 状态 。 
对 每 一 个 指标 ， 值 越 高 越 好 。 下 面 通过 主 成 分 分 析 减 少 变量 的 数目 。 

反映 城市 牛 活水 平 的 不 同 指标 的 主 成 分 分 析 。 
其 实现 的 MATLAB 程序 代码 如 下 : 


【 例 7-8】 


>> clear all; 


load cities; 


% 标 准 化 数据 

stdr==std(ratings); 
Sr=ratings./repmat(stdr,329,1); 
% 第 一 种 主 成 分 分 析 方 法 


[pcs,newdata,variances,t2]=princomp(srD); 


Pcs 


% 载 入 原始 数据 


plot(newdata(:,]),newdata(:,2),*); 
xlabel(' 第 一 个 主 成 分 》;ylabel( 第 二 个 主 成 分 ); 


运行 程序 ， 输 出 如 下 : 


pcs= 
0.2064 
0.3565 
0.4602 
0.2813 
0.3512 
0.2753 
0.4631 
0.3279 
0.1354 


具体 地 ， 以 第 一 列 为 例 〈 即 第 一 个 主 成 分 )， 
对 应 于 变量 “健康 ”和 “艺术 "。 


0.2178 
0.2506 
-0.2995 
0.3553 
-0.1796 
-0.4834 
-0.1948 
0.3845 
0.4713 


-0.6900 
-0.2082 
-0.0073 
0.1851 
0.1464 
0.2297 
-0.0265 
-0.0509 
0.6073 


0.1373 
0.5118 
0.0147 
-0.5391 
-0.3029 
0.3354 
-0.1011 
-0.1898 
0.4218 


-0.3691 
0.2333 
-0.1032 
-0.5239 
0.4043 
-0.2088 
-0.1051 
0.5295 
-0.15906 


0.3746 
-0.1416 
-0.3738 
0.0809 
0.4676 
0.5022 
-0.4619 
0.0899 
0.0326 


-0.0847 
-0.2306 


0.0139 
0.0186 


-0.5834 


0.4262 
-0.0215 
0.6279 


-0.1497 


最 大 的 权 值 是 第 三 个 和 第 七 个 元 素 ， 分 别 


包 





-0.3623 0.0014 
0.6139 0.0136 
-0.1857 -0.7164 
0.4300 -0.0586 
-0.0936 0.0036 
0.1887 0.1108 
-0.2040 0.6858 
-0.1506 -0.0255 
-0.4048 0.0004 


第 二 个 输出 为 原始 数据 在 主 成 分 定义 的 坐标 系 中 的 新 数据 ， 其 矩阵 大 小 与 原始 数据 相 
同 。 图 7-12 显示 的 是 原始 数据 在 前 面 两 个 主 成 分 上 的 投影 。 


-个 主 成 分 


第 
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图 7-12 ”原始 数据 在 前 两 个 主 成 分 上 的 投影 图 
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第 三 个 输出 为 协 方差 矩阵 的 特征 值 


>> variances' 
ans 一 


3.4083 ”1.2140 1.1415 ”0.9209 ”0.7533 ”0.6306 ”0.4930 ”0.3180 0.1204 


由 累计 特征 值 可知 ， 前 5 个 主 成 分 占 了 总 方差 的 82.7%， 因 此 只 需要 5 个 变量 〈 气 候 、 
住房 、 健 康 、 犯 罪 率 、 交 通 ) 就 可 以 表征 不 同城 市 的 生活 水 平 。 
【 例 7-9】 根据 表 7-10 中 人 体 头 发 的 元 素 分 析 结 果 进 行 主 成 分 分 析 。 


表 7-10 ”人体 头 发 的 元 素 分 析 





其 实现 的 MATLAB 程序 代码 如 下 : 


>> clear alj; 

x=[9.2,0.30,1770,12.0,3.6;12.4,0.39,930,50.0,2.3;7.2,0.32,2750,65.3,3.4;. 
10.2,0.36,1500,3.4,5.3;10.1,0.50,1040,39.2,1 .9;6.5,0.20,2490,90.0,4.6;.… 
53.6,0.29,2940,88.0,5.6;11.8,0.42,867,43.1,1.5;8.5,0.25,1 620,5.2,6.2]; 

stdr=std(x); 

Sr=X./Sstdr(ones(9,1),:); 

[pcs,newdata,variances,t2]=princomp(sm); % 主 成 分 分 析 


pcs % 主 成 分 

newdata % 得 分 

variances % 方 差 

世 % 统 计量 
plot(newdata(:,1),newdata(:,2),,*?; 

gname % 获 取 各 点 代表 的 样本 


运行 程序 ， 输 出 如 下 “〈 主 成 分 得 分 图 见 图 7-13) 


-0.5215 0.1028 -0.4127 0.1820 -0.7170 
-0.4652 -0.2691 0.7899 0.2833 -0.0829 
0.5174 -0.1704 0.3127 -0.3823 -0.6778 
0.2769 “” -0.7610 -0.2824 0.5140 -0.0175 
0.4090 0.5558 0.1680 0.6901 -0.1393 





归 分 析 





-0.1658 0.7783 -0.0895 -0.6913 0.0216 
-1.8837 -0.4626 -0.6649 0.3083 -0.2388 
1.2205 -0.8723 0.3504 -0.5121 -0.2328 
-0.5357 1.4566 0.3854 0.2579 -0.2436 
-2.0422 -0.7931 0.7886 0.0859 0.3139 
2.3119 -0.6715 -0.7569 0.0573 0.2033 
2.5738 -0.7007 0.4732 0.4217 -0.0676 
-2.1928 -0.6658 ” -0.3444 -0.0465 0.0418 
0.7139 1.9312 -0.1420 0.1188 0.2022 
variances 三 

3.3513 

1.1807 

0.2849 

0.1383 

0.0448 
刀 = 

4.0149 

4.7531 

4.6267 

4.2103 

6.2156 

4.9348 

4.5668 

2.2815 

4.3964 
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图 7-13 主 成 分 得 分 


从 变量 (variances) 结果 可 以 看 出 ， 共 有 5 个 主 成 分 ， 但 前 面 两 个 的 主 成 分 作用 显著 ， 
占 了 总 方差 的 约 91%。 
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第 8 章 多 元 统计 分 析 


多 元 素 分 析 是 数据 统计 学 中 近 三 四 十 年 来 迅速 发 展 的 重要 分 支 之 一 。 由 于 计算 机 及 软件 
的 使 用 日 益 广泛 ， 多 元 统计 分 析 的 方法 已 在 生物 、 医 学 、 地 质 、 农 业 、 工 程 技术 、 气 象 和 社 
会 经 济 等 许多 学 科 ， 得 到 日 益 广泛 的 应 用 。 


8.1 引言 


在 日 常生 活 和 科学 研究 过 程 中 ， 往 往 同 时 观测 个 对 象 的 忆 个 属性 ， 然 后 再 对 这 些 数据 
进行 整理 分 析 ， 从 而 得 出 所 期 望 的 结论 。 多 元 统计 分 析 就 是 处 理 这 类 问题 的 一 个 有 力 工具 。 
如 果 同 时 研究 一 个 总 体 的 尸 个 属性 ， 则 可 以 把 这 个 总 体 看 成 一 个 忆 元 向 量 。 从 总 体 中 随 
机 抽取 进行 观测 的 对 象 叫做 样本 ， 样 本 的 一 次 观测 结果 有 情 个 数值 ， 可 以 看 做 是 这 个 也 元 向 
时 的 一 次 取 值 。 第 ?个 样本 的 第 7 个 属性 的 观测 结果 记 为 鸭 ， 每 个 样本 可 以 用 一 个 己 维 向 量 


来 表示 
Xi 
X21 
汉 =| : 
Xpi 
对 个 样本 进行 观测 的 全 部 结果 ， 共 有 疡 xz 个 数据 ， 可 以 用 下 列 矩 阵 表 示 

XI MX 

下 =( 人 (Xe ) = 地 

Xpl Xp2 Xpn 


一 个 多 元 总 体 可 以 看 成 一 个 多 元 随机 变量 。 实 际 中 ， 考 察 一 个 已 元 总 体 就 是 考察 这 个 总 
体 中 每 个 对 象 的 己 个 属性 ， 或 者 说 考察 一 个 尸 元 随机 变量 。 多 元 统计 分 析 的 主要 任务 包括 分 
析 各 观测 数据 之 间 的 关系 ， 以 及 推断 总 体 的 某 些 性 质 。 

同一 元 样本 的 数字 特征 一 样 ， 也 可 以 定义 多 元 样本 的 数字 特征 。 

《1) 样本 的 平均 值 


统计 分 析 





样本 的 平均 值 就 是 各 变量 的 样本 平均 值 组 成 的 向 量 ， 它 是 了 个 样本 的 重心 。 











(2) 中 心 化 数据 
常常 需要 将 原始 数据 减 去 它 的 均值 ， 称 为 中 心 化 数据 居 。 
Ji 一 五 22 一石 和 一 六 
涛 = 和 六 人 5 
Xpl 一 7Zp Xp2 Zr Xpm 一 z 
(3) 标准 化 数据 
划一 为 和 2 一 局 和 一 为 
号 Si 5 
P1 一 六 222 一 交 mn 一 总 
龙 = 32 32 32 
Xpl 二 2 Xp2 和 好 Xpn 一 Xp 
3p 83p Sp 


(4) 距离 
距离 是 数学 中 的 一 个 抽象 概念 ， 它 可 以 用 于 描述 样本 之 间 的 差异 程度 。 常 用 的 距离 有 了 欧 
氏 距 离 、 马 氏 距 离 和 绝对 距离 。 


欧 氏 距离 的 定义 为 
而 =DCw 一 功 必 = 人 (一 为 )5 一 惊 ) 
X=] 
马 氏 距离 的 定义 为 


号 = 人 一 Xi)S (5 一 2) 
式 中 ，8 是 协 方差 矩阵 。 
绝对 距离 的 定义 为 


力 = 交 -jl 


8.2 ”因素 分 析 


多 元 数据 常常 包含 大 量 的 测量 变量 ， 有 时 候 这 些 变量 是 相互 重 登 的 。 也 就 是 说 ， 它 
们 之 间 存 在 相关 性 。 因 素 分 析 的 概念 是 英美 心理 统计 学 者 们 最 早 提出 的 ， 因 素 分 析 法 的 
目的 就 是 从 试验 所 得 的 闫 xz 个 数据 样本 中 概括 和 提取 出 较 少 量 的 关键 因素 ， 它 们 能 反映 
和 解释 所 得 的 大 量 观测 事实 ， 从 而 建立 起 最 简洁 、 最 基本 的 概念 系统 ， 揭 示 出 事物 之 间 
最 本 质 的 联系 。 








EB 玉 因素 分 析 的 理论 介绍 } 


因素 分 析 的 数学 模型 如 下 : 


7= 术 +s (8-1) 
式 中 ， 卫 = [ 罗 , 太 区 了 为 可 观测 的 闫 维 随机 向 量 ， 任 一 分 量 交 是 一 随机 时 间 序 列 变量 ， 
记 作 中 =OJppz): 攻 称 为 公共 因素 向 量 (KK 和 D，，s=(s 8 为 特殊 因素 向 
量 ， 己 为 因素 负荷 矩阵 (mxqg) : yy ，s 都 是 相互 无 关 的 随机 向 量 ， 一 般 是 不 可 观测 的 。 
为 了 计算 方便 ， 经 常 将 随机 向 量 了 进行 标准 化 。 假 设 进行 了 靖 次 观测 ， 标 准 化 记 作 了 ， 
且 Z =[z,z zw ， 其 中 第 ;个 分 量 第 了 次 测定 的 标准 值 为 


到 = 一 二 ， 工 二 12……,71I; 7 三 1,2……, 尹 
CO 


其 中 ， 所 = yx /是 第 ;个 变量 的 观测 均值 ， oj 是 第 ;个 变量 的 观测 方差 。 这 样 ， 因 素 分 
J/=1! 


析 的 模型 可 以 重新 写成 
Z=Pr+s (8-2) 


具体 展开 为 
写 = 交 六 十 (8-3) 
kt 


上 式 的 意义 表示 第 i 个 分 量 第 7 次 测定 标准 值 与 公共 因素 、 特 殊 因 素 的 关系 。 因 素 负荷 矩阵 
的 统计 意义 是 : 书 的 行 元 素 的 平方 和 代表 公共 因素 对 变量 z 的 方差 所 作 的 贡献 ， 称 为 共性 方 
差 ， 它 的 大 小 反映 了 变量 zi 对 公共 因素 的 依赖 限度 ， 疡 的 列 元 素 的 平方 和 代表 第 丰 个 公共 因 
素 凡 对 向 量 2Z 的 影响 ， 称 为 方差 贡献 ， 它 的 大 小 反映 了 随机 向 量 Z 对 矿 的 依赖 程度 ， 是 衡 
其 公共 因素 扩 相对 重要 性 的 一 个 重要 尺度 。 

因素 分 析 模 型 的 物理 意义 解释 如 下 : 假设 将 每 个 因素 看 成 一 个 坐标 轴 ，g 个 因素 变量 构 
成 了 一 个 4 维 的 因素 空间 ， 式 〈8-1) 和 式 〈8-2) 就 是 将 原来 的 闫 个 观测 变量 投影 到 9 维 的 
因素 空间 ， 用 9 个 因素 变量 的 组 合 来 表达 原 观 测 变量 的 主要 信息 甚至 全 部 信息 。 

随机 向 量 2 的 协 方差 矩阵 与 负荷 矩阵 的 关系 如 下 

Cov(Z,Z)= PPI+G (8-4) 

因素 分 析 是 从 一 组 向 量 的 相互 关系 出 发 ， 建 立 若 二 个 相互 正 交 的 因素 轴 ， 将 这 组 向 量 最 
大 限度 地 包含 在 因素 空间 内 ， 使 各 个 向 量 在 各 因素 轴 上 的 投影 和 达到 最 大 。 因 素 分 析 的 关键 
是 从 变量 的 相关 和 矩阵 中 ， 利 用 式 〈8-4) 求解 出 因素 负荷 矩阵 己 。 


E3 因素 分 析 的 函数 介绍 | 


因素 分 析 一 般 有 两 步 : 第 一 步 是 从 信和 号 的 相关 和 矩阵 丸 中 求解 出 无 限 多 个 己 中 的 一 个 ， 
确定 因素 数目 ， 称 为 因素 提取 过 程 ， 第 二 步 是 经 过 旋转 变换 ， 找 到 一 个 最 合适 的 已， 称 为 因 
素 旋转 过 程 。 通 过 因素 提取 过 程 得 到 了 若干 个 因素 之 后 ， 因 素 的 含义 往往 不 明确 ， 为 了 对 因 
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素 作出 解释 ， 就 需要 对 因素 负荷 矩阵 进行 旋转 变换 。 
统计 工具 箱 中 提供 了 因素 负荷 矩阵 的 极 大 似 然 估计 函数 factoran。 
其 调用 格式 如 下 : 


lambda = factoran(X,m) 

[lambda.psi] = factoran(X,m) 

[lambda.psi,T] = factoran(X,m) 
[iambda,psi,T,stats] = factoran(X,m) 
[lambda,psi,T,stats 上 ] = 包 ctoran(X,m) 

[.…] = 包 ctoran(.….,paraml,vall,param2,val2…) 


其 中 ， 蕊 是 观测 向 量 ; zz 是 公共 因素 的 数目 ;paraml'，valuel 等 是 控制 模型 和 输出 的 名 称 / 
数值 对 〈 可 选 参数 )，lambda 返回 因素 负荷 矩阵 的 估计 值 ，psi 返回 特殊 因素 负荷 矩阵 的 估计 
值 ; 了 返回 因素 负荷 旋转 矩阵 ，stats 是 一 个 数据 结构 ， 它 包含 了 与 假设 检验 有 关 的 信息 。 

【 例 8-1】 对 460 种 不 同 汽 车 的 5 项 指标 数据 进行 两 因素 分 析 《〈 其 中 ，carbig 数据 是 
MAITLAB 统计 工具 箱 自 带 的 )。 

其 实现 的 MATLAB 程序 代码 如 下 : 





>> clear all; 

load carbig 

X= [Acceleration Displacement Horsepower MPG Weight]; 
X=X(all(~isnan(X),2)》); 

% 估 计 因 素 负 荷 矩 阵 

[Lambda,Psi,T,stats,F] = factoran(X,2,'scores' regression ); 
Lambda 。 % 输 出 因素 负荷 矩阵 


invCPeT) %F 的 相关 系 阵 

Lambda*Lambda'+diag(Psi) % X 的 相关 矩阵 
Lambda*inv(T) % 未 经 旋转 的 因素 负荷 矩阵 
F+*T"; % 未 经 旋转 的 因素 贡献 率 
% 绘 制 未 经 旋转 的 负荷 点 和 旋转 斜 坐标 

invT=inv(T); 


Lambda0=Lambda*invT; 

biplot(Lambda,'LineWidth,2,MarkerSize',20); 

line([-invT(L,1),invT(1,1)NaN,-invT(C2,1),invT(C2,.1)]，…. 
[-invT(1,2),invyT(1,2)NaN,-invT(2,2),invT(2,2)]); 

xlabel(' 载 入 因素 19; 

ylabel( 载 入 因素 2); 


运行 程序 ， 输 出 如 下 : 
公共 因素 负荷 矩阵 为 


Lambda = 
-0.2432 -0.8500 
0.8773 0.3871 
0.7618 0.5930 
-0.7978 -0.2786 
0.9692 ” 0.2129 








可 见 ， 第 一 、 第 三 和 第 五 个 指标 与 第 一 个 因素 有 关 。 


ans 一 
1.0000 -0.0000 
-0.0000 1.0000 
5 项 指标 之 间 的 相关 矩阵 为 
1.0000 -0.5424 -0.6893 
-0.5424 。 1.0000 0.8979 
-0.6893 。 0.8979 。 1.0000 
0.4309 -0.8078 -0.7730 
-0.4167 ”0.9328 。 0.8647 
未 经 旋转 的 负荷 算 阵 为 
ans 二 
-0.5020 0.7277 
0.9550 。 -0.0865 
0.9113 -0.3185 
-0.8450 0.0091 
0.9865 0.1079 


0.4309 -0.4167 
-0.8078 0.9328 
-0.7730 0.8647 

1.0000 -0.8326 
-0.8326 1.0000 


未 经 旋转 的 因素 负荷 点 及 旋转 斜 轴 如 图 8-1 所 示 。 
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图 8-1 未 经 旋转 的 因素 负荷 点 位 置 


影响 股票 价格 的 因素 分 析 。 为 此 ， 记 录 了 100 周 的 时 间 内 ，10 家 公司 的 股票 价格 的 变 
化 。 在 这 10 家 公司 中 ，4 家 公司 属于 一 般 的 技术 公司 ，3 家 公司 属于 金融 公司 ，3 家 公司 属 
于 零售 公司 。 从 原理 上 说 ， 同 一 类 型 公司 的 股票 价格 应 该 同时 变化 ， 下 面 通过 因素 分 析 对 此 
进行 定量 分 析 ， 这 里 的 因素 就 是 公司 的 类 型 。 

【 例 8-2】 影响 股票 价格 的 因素 分 析 〈 此 数据 是 MATLAB 自 带 的 )。 
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其 实现 的 MATLAB 程序 代码 如 下 : 
>> clear all; 
load stockreturns % 装 载 数据 
m=3; % 因 素 个 数 
% 因 素 分 析 
[loadings,specifivVarT,stats]=factoran(stocks,m,'rotate ,none ); 
loadings % 未 经 旋转 的 公共 因素 负荷 矩阵 
specifivVar % 未 经 旋转 的 特殊 因素 矩阵 
% 因 素 分 析 
[loadingsPM,specifivVarPM]=factoran(stocks,m,rotate',promax ); 
loadingsPM % 旋 转 后 的 公共 因素 负荷 矩阵 
figure; 
Subplot(121); 


plot(loadingsPM(:,1),loadingsPM(:,2),r.); 
text(loadingsPM(:,1),loadingsPM(:,2),num2str((1:10))); 

line([-1 1 NaN00NaN00],[00NaN -11NaN 00],color,red); 
xlabel( 因 素 19;ylabel( 因素 27; 

axXis Square; 

subplot(122); 

plot(loadingsPM(:,1),loadingsPM(:,3),r.); 
text(loadingsPM(:,1),loadingsPM(:,3),num2str((1:10)7)); 

line([-1 1NaN00NaN00],[00NaN -11NaN00],color,red")i; 
xlabel(' 因 素 1);ylabel(' 因 素 3); 

axis Square; 


运行 程序 ， 输 出 如 下 : 
未 经 旋转 的 公共 因素 负荷 矩阵 为 


loadings = 
0.8885 0.2367 “” -0.2354 
0.7126 0.3862 0.0034 
0.3351 0.2784 -0.0211 
0.3088 0.1113 -0.1905 
0.6277 -0.6643 0.1478 
0.4726 -0.6383 0.0133 
0.1133 -0.5416 0.0322 
0.6403 0.1669 0.4960 
0.2363 0.5293 0.5770 
0.1105 0.1680 0.5524 


从 上 述 公 共 因 素 负荷 矩阵 可 知 ， 难 以 与 已 知 的 3 种 类 型 的 公司 相对 应 ， 原 因 在 于 未 经 旋 
转 的 因素 负荷 矩阵 难以 解释 。 
特殊 因素 矩阵 为 


> specifivVar ”% 未 经 旋转 的 特殊 因素 矩阵 
specifivVar = 0.0991 





0.3431 
0.8097 
0.8559 
0.1429 
0.3691 
0.6928 
0.3162 
0.3311 
0.6544 


由 特殊 因素 矩阵 可 以 看 出 ， 股 票 价格 的 变化 还 受到 某 种 特殊 因素 的 影响 。 
旋转 后 的 公共 因素 负荷 抢 阵 为 


loadingsPM = 


0.9452 
0.7064 
0.3885 
0.4162 
0.1021 
0.0873 
-0.1616 
0.2169 
0.0016 
-0.2289 


0.1214 
-0.0178 
-0.0994 
-0.0148 

0.9019 

0.7709 

0.5320 

0.2844 
-0.1881 

0.0636 


-0.0617 
0.2058 
0.0975 


-0.1298 


0.0768 
-0.0821 


-0.0888 


0.6635 
0.7849 
0.6475 


由 上 述 数据 明显 可 以 看 出 ， 第 一 ~ 第 四 家 公司 属于 同一 类 ， 与 第 一 个 因素 有 关 ;， 第 五 ~ 第 
七 家 公司 属于 同一 类 ， 与 第 二 个 因素 有 关 ， 第 八 ~ 第 十 家 公司 属于 同一 类 ， 与 第 三 个 因素 有 
关 。 ， 
在 上 述 因素 旋 转 的 过 程 中 ， 采 用 的 是 斜 交 旋 转 〈promax 准则 )。 这 种 旋转 方式 在 负荷 中 
产生 一 个 简单 的 结构 ， 即 大 多 数 的 股票 价格 仅仅 对 一 个 因素 有 较 大 的 负荷 。 为 了 看 清楚 这 种 
结构 ， 可 以 使 用 因素 负荷 为 坐标 绘制 负荷 矩阵 ， 如 图 8-2 所 示 。 
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图 8-2 ” 斜 交 旋 转 后 的 负荷 矩阵 结构 


由 图 8-2 可 以 看 出 ， 第 一 个 因素 轴 对 应 金融 公司 ， 第 二 个 因素 轴 对 应 零售 公司 ， 第 三 个 
因素 轴 对 应 一 般 的 技术 公司 。 
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8.3 ” 聚 类 分 析 


人 类 认识 世界 的 一 种 重要 方法 是 将 世界 上 的 事物 进行 分 类 ， 从 中 发 现 规律 ， 进 而 改造 世 
界 。 正 因为 这 样 ， 分 类 学 早 就 成 为 人 类 认识 世界 的 一 门 基础 学 科 。 由 于 事物 的 复杂 性 ， 单 任 
经 验 来 分 类 是 远 远 不 够 的 ， 利 用 数学 方法 进行 更 科学 的 分 类 成 为 一 种 必然 的 趋势 。 随 着 计算 
机 的 普及 ， 利 用 数学 方法 研究 分 类 不 仅 非常 必要 ， 而 且 完 全 可 能 。 因 此 ， 聚 类 分 析 作 为 多 元 
分 析 的 一 个 重要 分 支 ， 发 展 非常 迅速 。 





在 分 类 学 中 ， 一 般 把 某 种 性 质 比较 相近 的 事件 归 为 同一 类 ， 把 性 质 不 相近 的 事件 归 为 不 
同 的 类 。 利 用 数学 方法 的 分 类 是 建立 在 各 个 事物 关于 其 性 质变 量 的 测量 数据 基础 上 的 ， 即 利 
用 这 些 数据 的 内 在 联系 和 规律 来 进行 分 类 。 为 此 ， 首 先 需要 有 刻画 各 个 变量 之 间或 各 个 事物 
之 间 关 系 密切 程度 的 撒 述 。 目 前 ， 描 述 变量 之 间 关 系 的 数学 方法 很 多 ， 常 用 的 是 相似 〈 或 相 
关 ) 系数 和 距离 。 

1， 相 似 系数 

假设 测定 了 z 个 变量 如, 的 M 组 数据 ， 记 作 

22 2 

这 样 ，2 个 变量 就 可 以 看 做 是 只 “空间 中 的 靖 个 向 量 ， 则 向 量 交 ，x, 之 间 的 相关 性 ， 即 

相关 系数 可 以 定义 如 下 : 


4 
2 (ru -万 )(xw -万 ) 


4f 
(xm 一 互 )(xw 一 元 


1 总 1 
式 中 ，z = 站.z 3 2/ =J7 忆 zt 。 
凡 二 | 


丰 三 ] 
当然 ， 除 了 上 述 定义 之 外 ， 还 有 其 他 的 相关 系数 的 定义 ， 读 者 可 以 参考 相关 书籍 。 相 关 
系数 〈 或 相似 系数 ) 具有 以 下 性 质 ， 
1) 风 |<5Va7 。 


2) 六 =， 

而 且 | 六 | 越 接近 于 1， 说 明 交 ， 交 越 相似 或 相关 ，|z | 越 接近 于 0， 说 明 交 ，x 越 不 相 
似 或 不 相关 。 特 别 地 ，| 六 上 1 时 ， 说 明 交 = ax ， 即 交 ，x 是 完全 线性 相关 的 ; |m 上 0 时 ， 
说 明 x ， 六 是 正 交 的 。 

2. 距离 

在 欧 氏 空间 中 ， 两 个 向 量 妆 ， 总 除了 用 它们 的 夹 角 的 余弦 来 度量 它们 的 相似 程度 外 ， 


Vi 。 








还 可 用 它们 的 距离 来 度量 。 常 用 的 距离 有 以 下 几 种 : 
(1) 欧 氏 距离 


(2) Minkowski 距离 


式 中 ， 疡 是 一 正 整 数 。 当 疡 =2 时 ， 即 为 欧 氏 距离 。 当 P=1 时， 有 


M 
Gd 三 号 | 
放 三 ] 
称 为 绝对 值 距离 。 
(3) 切 比 雪夫 距离 


二 maX 


1I<m<sAf 





Xi 一 划 | 
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统计 工具 箱 实现 了 两 类 聚 类 方法 ， 即 系统 聚 类 法 和 K- 均 值 聚 类 法 。 

(1) 系统 聚 类 法 

系统 聚 类 法 是 目前 用 得 最 多 的 一 种 聚 类 方法 。 它 的 基本 思想 是 ,首先 ， 将 要 分 类 的 刀 个 
变量 各 自 看 做 一 类 ， 然 后 计算 各 类 之 间 的 关系 密切 程度 〈 相 关系 数 或 距离 )， 并 将 关系 最 密 
切 的 两 类 归 为 一 类 ， 其 余 不 变 ， 即 得 到 靖 -1 个 类 ， 如 此 重复 进行 下 去 ， 每 次 归 类 都 减少 一 
类 ， 直 至 最 后 ，7 个 变量 都 归 为 一 类 。 这 一 归 类 过 程 可 以 用 一 张 聚 类 图 形象 地 表示 出 来 ， 由 
聚 类 图 明显 可 以 看 出 分 类 过 程 。 

统计 工具 箱 实现 系统 聚 类 法 的 基本 步骤 如 下 : 

G 计算 数据 集 每 对 元 素 之 间 的 距离 ， 对 应 函数 为 pdist。 

其 调用 格式 如 下 : 


y=pdist(X) 
y=pdist(X,metric) 
y=pdist(X,distfun) 
y=pdist(X,minkowski',p) 


其 中 , 兴 是 严 x 于 的 矩阵 ， 表 示 闫 个 大 小 为 问 的 向 量 ;， metric 是 计算 距离 的 方法 选项 ， 
其 选项 含义 如 下 : distfun 是 自 定义 的 距离 函数 , 六 是 自 定义 距离 函数 的 输入 参数 ，” 返回 大 
小 为 m(m -1)/2 的 距离 矩阵 ， 距 离 的 排列 顺序 为 (1, 2)，(1, 3)…, (1, m, (2, 0)…,(2, mw, (m- 
lm)，?” 也 称 为 相似 矩阵 。 

@ metric=euclidean 时 : 表示 欧 氏 距离 (默认 值 )。 

@@ metric=seuclidean 时 : 表示 标准 的 欧 氏 距离 。 

@ metric=mahalanbis 时 : 表示 mahalanbis 距离 。 
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@ 对 变量 进行 分 类 ， 构 成 一 个 系统 聚 类 树 ， 对 应 函数 为 linkage。 


Z=link 
Z= mr 电 
其 中 ，y” 是 距离 向 量 ;Z 为 返回 系统 聚 类 树 ;，method 是 采用 的 算法 选项 ， 其 取 值 如 下 : 

@ method=single 时 : 表示 最 短 距 离 。 

@ method=complete 时 : 表示 最 长 距离 。 

@ method=average 时 : 表示 平均 距离 。 

@ method=centroid 时 : 表示 中 心 距离 。 

多 确定 怎样 划分 系统 聚 类 树 ， 得 到 不 同 的 类 ， 对 应 的 函数 为 cluster。 

其 调用 格式 如 下 : 


工 = cluster(Z, cutofp,c) 

T=cluster(Z, cutoff,c,depth',d) 

工 =cluster(Z, cutoff,c,criterion'criterion) 
工 =cluster(Z,,maxclust,n) 


其 中 ，Z 是 系统 聚 类 树 ， 为 (mm -1D)x3 的 矩阵 ，c 是 浆 值 : 岂 是 类 的 最 大 数目 ，criterion 
是 聚 类 的 准则 ;qd 是 树 的 深度 ， 7 是 一 个 大 小 为 六 的 向 量 ， 它 包括 原始 数据 每 个 观测 量 的 编 
号 ; maxclust 为 聚 类 的 选项 ;depth 指定 系统 聚 类 树 的 水 平 数 ， 并 包含 在 不 连续 系数 的 计算 
中 ;，cuto 任 是 一 个 临界 值 ， 它 决定 cluster 函数 怎样 聚 类 。 

【 例 8-3】 利用 系统 聚 类 法 对 以 下 5 个 变量 分 类 。 

其 实现 的 MATLAB 程序 代码 如 下 : 


>> clear al; 

X=[1 2;2.5 4.5;2 2;4 1.5;4 2.5]; % 分 析 数 据 矩 阵 
% 显 示 $ 个 变量 的 位 置 

figure(l); 

plot(X(:,1),X(,2).*); 

grid on;axis([0 5 0 5]);gname 

% 计 算 变量 之 间 的 距离 信息 
Y=pdist(X); 

DisM=squareform(Y) 
Z=linkage(Y) % 生 成 系统 聚 类 树 
% 显 示 系 统 聚 类 树 
figure(2);dendrogram(Z); 

% 不 同 阔 值 的 分 类 结果 
Tl=cluster(Z,2) 

T2=cluster(Z,3) 

T3=cluster(Z,S) 


运行 程序 ， 输 出 如 下 : 
5 个 变量 在 空间 的 位 置 如 图 8-3 所 示 。 
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疼 8-3 5 个 变量 在 空间 的 位 置 


各 个 变量 之 间 的 距离 矩阵 为 


DisM = 
0 2.9155 1.0000 3.0414 3.0414 
2.9155 0 2.$495 3.3541 2.5$000 
1.0000 2.5495 0 2.0616 2.0616 
3.0414 3.3541 2.0616 0 1.0000 
3.0414 2.5000 2.0616 1.0000 0 
系统 聚 类 树 连 接 信息 矩阵 为 
也 一 


4.0000 5.0000 1.0000 
1.0000 3.0000 1.0000 
6.0000 7.0000 2.0616 
2.0000 8.0000 2.5000 


系统 聚 类 树 图 如 图 8-4 所 示 。 
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图 8-4 系统 聚 类 树 图 


多 元 统计 分 析 





如 这 5 个 变量 分 为 两 类 一 一 {1, 3,4.5}，{2}。 
当 值 为 3 时 的 聚 类 结果 为 


2 


2 3 1 1 
即 这 5 个 变量 分 为 3 类 一 一 {13}，{2}，{4, 5}。 


当 闪 值 为 5 时 的 聚 类 结果 为 


T3 = 
1 2 3 于 5$ 


即 这 $ 个 变量 分 为 5 类 一 一 人 ，12}，13}，{4}，15}。 

(2) K- 均 值 聚 类 法 

K- 均 值 聚 类 法 是 一 种 简单 、 高 效 的 聚 类 算法 。 假 设 有 zz 个 变量 加 zx ， 现 将 于 个 变 
量 划分 为 到 个 类 ， 分 别 用 种, 表示。 令 N 是 第 个 类 大 中 的 变量 数目 ，m 是 这 些 
变量 的 均值 ， 取 距离 函数 为 欧 氏 距离 。K- 均 值 聚 类 法 的 步骤 如 下 : 

GD 随机 选择 玉 个 样本 作为 初始 聚 类 中 心 四 ,mp ，…mu 。 

@@ 如 果 d0n,mp)gdomi)，1<P 和 KK，i=12…， 则 分 配 x 到 第 尸 类 。 


图 重新 计算 每 个 聚 类 的 中 心 : mm -方志 *， 2 
曲 重复 步 辊 @ 和 多 直到 mm 不 再 变化 ，i= 12,…,Kk 。 
统计 荆 具 箱 中 实现 K- 均 值 聚 类 法 的 函数 为 kmeans。 
其 调用 格式 如 下 : 
IDX = kmeans(X.k) 
[IDX,C] = kmeans(X,k) 
[IDX,C,sumd] = kmeans(X,k) 
[IDX,C,sumd,D] = kmeans(X,k) 
[.…] = kmeans(.…,paraml,vall,param2,val2,…) 


其 中 , X 是 ax 的 数据 矩阵 ; K 是 类 的 数目 ，parami，vali 等 是 控制 迭代 算法 的 优化 参 
数 的 名 称 和 数值 ， IDX 返回 一 个 mx1 的 向 量 ， 包 含 了 每 个 变量 的 类 编号 ，C 返回 一 个 kx PP 
的 算 阵 ， 表 示 大 个 类 的 中 心 位 置 ， sumd 返回 一 个 1xK 的 向 量 ， 表 示 每 个 类 中 所 有 点 到 聚 类 
中 心 位 置 的 距离 ; 娓 返回 一 个 zxK 的 矩阵， 表示 每 一 个 点 到 每 -- 个 聚 类 中 心 的 距离 。 

【 例 8-4】 将 一 个 四 维 数据 分 成 不 同 的 类 。 

其 实现 的 MATLAB 程序 代码 如 下 : 


>> clear all; 

% 产 生 随 机 数 
Seed=931316785; 
rand('seed',seed); 
Tandn('seed' ,seed); 








load kmeansdata; ”% 装 载 MATLAB 自 带 的 数据 
size(X); % 数 据 大 小 

%% 按 照 城市 间 的 距离 进行 分 类 

% 类 的 数 日 为 3 

k1=3; 

jdx3=kmeans(X,kl1,'distance'vcity); 

% 显 示 聚 类 结果 

fgure(] ); 

[silh3,h]j=silhouette(X,idx3,city ); 
xlabel(0Silhouette 值 );ylabel(' 聚 类 ); 

% 类 的 数目 为 4 

k2=4; 

idx4=kmeans(X,k2. distvcity',display' iter ); 
% 显 示 聚 类 结果 

figure(2); 

[silh4,h]=silhouette(X,idx4,city ); 
xlabel(Silhouette 值 ');ylabel( 聚 类 ); 

% 类 的 数 日 为 5 

k3=5; 

jdxS=kmeans(X,k3,"distyvcity replicates',5); 
% 显 示 聚 类 结果 

figure(3); 

[siljhs,h]=silhouette(X,idxs,city ); 
xlabel('Silhouette 值 ');ylabel(' 聚 类 ); 


运行 程序 ， 不 同类 数目 的 聚 类 结果 分 别 如 网 8-5$~ 图 8-7 所 示 。 
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图 8-5 类 数目 为 3 时 的 聚 类 结果 


由 图 8-5 可 以 看 出 ， 第 三 类 的 大 多 数 点 具有 较 高 的 silchouette 值 (大 十 0.6)， 这 说 明 第 
三 类 与 其 他 的 类 比较 好 地 区 分 开 了 。 但 是 第 二 类 的 许多 点 的 silchouette 值 较 低 〈 为 负 值 )， 
这 说 明 第 一 类 和 第 一 类 没有 很 好 地 区 分 开 。 为 此 需要 增加 类 的 数目 。 

利用 可 选 参数 “display” 显 示 算 法 的 友 代 信息 如 下 ; 


iter phase num Sum 
] 1 560 2897.56 
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2 ] 53 2736.67 
3 1 50 2476.78 
4 1 102 1779.68 
5 1 5 1771.1 
0 2 0 1771.1 


6 iterations, total sum of distances = 1771.1 


可 见 最 优 的 类 数目 为 4， 其 聚 类 结果 如 图 8-6 所 示 。 
由 疼 8-6 可 以 看 出 ， 这 4 类 很 好 地 被 分 离开 。 继 续 增 加 类 的 数目 为 S， 得 到 的 聚 类 结果 
如 图 8-7 所 示 。 
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图 8-6 类 数目 为 4 时 的 聚 类 结果 图 8-7 类 数目 为 $ 时 的 聚 类 结果 


[到 楷 类 分 析 的 应 用 示例 分 析 | 

【 例 8-5】 用 正 辛 醇 -水 分 配 系数 K，、 沸 点 b.p.、 摩 尔 体积 MV 和 分 子 连 接 性 指数 x 四 
个 参数 描述 毛茶 、1,4- 二 毛茶 、 五 毛茶 、 六 毛茶 、4- 氧 硝 基 葵 ， 硝 基 茶 6 个 化 合 物 ， 试 根据 
表 8-1 中 的 数据 对 这 6 个 化 合 物 进行 分 类 。 


表 8-1 化 合 物性 质 
镍 生生 放下 症 人 攻关 汪 辣 司 二 


4- 世 俏 苇 茶 2.58 242.0 103.0 
102.0 
MATLAB 提供 了 两 种 方法 进行 聚 类 分 析 。 


俏 基 荣 1.87 210.8 
一 种 是 一 次 聚 类 ， 利 用 函数 可 以 对 样本 数据 进行 一 次 聚 类 ， 但 选择 面 比 较 窗 ， 不 能 更 改 
距离 的 计算 方法 。 
另 一 种 是 分 布 聚 类 ， 可 以 分 以 下 步骤 进行 分 布 聚 类 : 找到 数据 集合 中 变量 两 两 之 间 的 
相似 性 和 非 相 似 性 ， 用 pdist 函数 计算 变量 之 间 的 距离 。@) 用 linkage 函数 定义 变量 之 间 的 
连续 性 。 饼 用 cophenetic 函数 评价 聚 类 信息 。@ 田 用 cluster 函数 创建 聚 类 。 




























(1) 一 次 聚 类 的 MATLAB 程序 代码 


>> x=[3.02 131.5 101.8 2.18; 3.44 173.8 118.0 2.69;， 5.12 277.0 136.0 
4.2942.， 
5.41 321.0 138.0 4.78; 2.58 242.0 103.0 2.63; 1.87 210.8 102.0 


2.11]; 
T=clusterdata(x,0.5) 


运行 程序 ， 输 出 如 下 : 


了 = 
2 1 3 3 4 4 


数据 集合 分 为 4 类 。 调 整 cutoff 值 ， 将 有 不 同 的 分 类 。 
(2) 分 布 聚 类 的 MATLAB 程序 代码 


>> xx=Zzscore(x); % 数 据 标准 化 
y=pdist(xx); % 计 算 变 量 间 的 相似 必 
squareform(y);  % 将 输出 转化 为 矩阵 ,以 便 阅 读 
二 linkage(y); % 定 义 变量 之 间 的 连接 
c=cophenet(zy) % 评 价 聚 类 信息 
运行 程序 ， 输 出 如 下 : 
ee 三 0.9355 
连接 变量 生成 聚 类 树 后 ， 可 以 通过 下 列 方法 进行 修改 或 了 解 更 多 的 信息 。 
人 修改 聚 类 树 : 衡量 聚 类 信息 的 有 效 性 可 以 用 cophenet 函数 计算 衡量 聚 类 的 相关 性 ， 
该 值 越 接近 于 1， 表 示 聚 类 效果 越 好 。 
>> c=cophenet(Z,y) 
C== 0.9355 


将 函数 中 距离 计算 方法 分 别 指定 为 “Mahal”“sEuclid” 和 “Cityblock”， 重 新 计算 pdist 
冰 数 后 ， 再 用 cophenet 函数 计算 c 值 分 别 等 于 0.5957、0.9355 和 0.9394， 所 以 用 
“Cityblock” 计 算 距 离 效 果 较 好 。 

@ 了 解 与 聚 类 连接 相关 更 多 的 信息 : 数据 集合 中 聚 类 的 方法 之 一 是 比较 聚 类 树 中 每 一 
个 连接 的 长 度 与 相 邻 次 一 级 连接 的 长 度 。 如 果 二 者 相近 ， 则 表示 此 水 平 上 变量 之 间 是 相似 
的 ， 这 些 连 接 被 认为 具有 较 高 水 平 的 连续 性 ， 反 之 ， 则 称 为 不 连接 性 的 。 


>> dendrogram(z); % 生 成 聚 类 树 〈 见 图 8-8) 


聚 类 树 中 每 一 个 连接 的 相对 连续 性 可 用 inconsistent 函数 生成 的 不 连接 性 系数 来 定量 表 
示 。 该 函数 比较 某 连接 的 长 度 与 相 邻 连接 的 长 度 的 均值 。 若 该 变 最 与 周围 变量 连续 ， 则 不 连 
续 性 系数 较 低 ， 反 之 ， 则 较 高 。 











疼 8-8 桌 类 树 


>> 1=inconsistent(Z) 
I = 


0.8206 0 1.0000 0 
0.8270 0 1.0000 0 
1.2539 0 1.0000 0 


1.1617 0.3056 3.0000 0.8144 
1.6076 0.8954 3.0000 1.0917 


矩阵 中 ， 第 一 列 为 所 有 连接 长 度 的 均值 ， 第 一 列 为 所 有 连接 长 度 的 标准 偏差 ， 第 二 列 为 计算 
所 包含 的 连接 数 ， 第 四 列 为 不 连续 性 系数 。 该 输出 信息 可 以 与 linkage 函数 的 输出 对 照 阅 读 。 
>> cluster(z,.0.8) 。 % 创 建 分 类 ,以 距离 不 超过 2 的 个 连续 性 系数 为 临 党 点 
ans 三 
和 3 2 2 1 ] 


从 聚 类 树 中 可 以 清晰 地 了 解 聚 类 过 程 。 比 较 起 来 ， 化 合 物 3 和 4 的 性 质 与 其 他 化 合 物 相 
茬 冬 人 。 看 来 ， 苯 环 的 氧 全 部 或 几乎 全 被 氯 取代 对 化 合 物 的 影响 是 非常 显著 的 。 


8.4 正 交 实 验 设计 分 析 


实验 设计 是 考虑 如 何 安排 多 因素 多 水 平 的 实验 ， 能 合理 而 高 效 地 获得 所 要 的 分 析 数 据 ， 
并 用 相应 的 方法 分 析 这 些 数据 ， 以 确定 哪些 因素 影响 是 主要 的 ， 各 因素 用 什么 水 平 搭配 起 来 
对 实验 的 指标 是 最 佳 的 。 实 验 设计 在 改进 产品 分 配 、 降 低 原 料 和 能 源 的 消耗 、 提 高 产品 的 产 
量 和 质量 等 方面 具有 广泛 的 应 用 。 例 如 ， 缩 醛 化 工艺 是 维尼 纶 生产 的 最 后 一 道 化 学 工艺 ， 上 日 
的 是 提高 维尼 纶 纤维 的 耐 热 水 性 。 根 据 生产 经 验 可 知 ， 反 应 时 间 、 反 应 温度 、 甲 醇 浓度 、 硫 
酸 浓 度 和 芒硝 浓度 是 影响 产品 指标 的 5 个 主要 因素 。 为 了 寻找 最 佳 的 配方 及 加 工 工艺 ， 艺 确 
浓度 由 于 影响 较 小 只 取 3 个 水 平 外 ， 其 他 因素 都 取 7 个 水 平 ， 如 果 在 不 同 水 平 的 组 合 下 做 全 
面 实验 ， 则 需要 3x7” = 7203 次 ， 而 用 适当 的 实验 设计 方法 安排 实验 ， 可 以 大 大 减少 实验 次 
数 并 找到 最 佳 配方 和 加 工 工 艺 ， 及 时 解决 生产 问题 。 


区 到 正 交 志 分 析 
正 父 表 是 正 交 实 验 设计 的 基本 工具 。 在 正 交 实 验 设计 中 ， 安 排 实验 ， 对 实验 结果 进行 分 
析 ， 均 在 正 交 表 上 进行 。 下 面 对 正 交 表 进行 较 深入 的 介绍 。 








1. “完全 对 ”与 “均衡 搭配 ” 
在 讲解 正 交 表 的 定义 和 性 质 之 前 ， 首 先 介绍 “完全 对 ”与 “均衡 搭配 ”的 概念 。 
设 有 两 组 元 素 oo，…sas 与 已 久久 ， 把 wB 个 “元 素 对 ” 


(al)， (al, 总 )， 2 (app) 
(a>, 记 )， (oa 已)， 全 要 (ap5p) 


(au 已 )， (au 六 )， (au,pp) 
叫做 由 元 素 a,a，…au 与 乌 , 乌 85 构成 的 “完全 对 ”。 

当 不 到 十 发生 混 淆 时 ， 有 时 也 省 略 元 素 对 的 括号 。 也 就 是 说 ， 将 (ab) 简 写成 wp 。 

以 后 用 到 的 “完全 对 ”是 由 数码 所 构成 的 。 

例如 ， 由 数码 1, 2, 3 与 1, 2, 3, 4 构成 的 “完全 对 ”为 

(1D,(2) 3) (4) 
(2,1),(2,2),(2,3)(2,4) 
(3,1,(3,2),(3,3),(3,4) 

如 果 一 个 矩阵 的 某 两 列 中 ， 同 行 元 素 所 构成 的 元 素 对 〔〈 简 称 这 两 列 所 构成 的 元 素 对 ) 是 
一 个 “完全 对 ”， 而 且 每 对 出 现 的 次 数 相同 时 ， 称 这 两 列 “ 均 衡 搭 配 沁 否则 ， 称 为 “不 均衡 
搭配 ”。 

可 见 ， 所 谓 某 两 列 不 均衡 搭配 ， 就 是 指 这 两 列 所 构成 的 元 素 对 不 是 一 个 “完全 对 风 或 
者 虽然 是 一 个 “完全 对 ”， 但 并 不 是 每 个 元 素 对 出 现 的 次 数 都 一 样 。 

例如 ， 对 矩阵 


] 
1 
2 
2 
1 
1 
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其 第 一 ， 二 两 列 是 均衡 搭配 的 ， 因 为 这 两 列 所 构成 的 元 素 对 是 一 个 “完全 对 风 而 且 每 对 出 
现 的 次 数 都 一 样 ， 都 是 两 次 ;但 是 ， 第 一 ， 三 两 列 为 不 均衡 搭配 ， 因 为 这 两 列 所 构成 的 元 素 
对 根本 就 不 是 一 个 “完全 对 ”( 没 有 元 素 对 (2,1));， 同样 第 二 ， 三 两 列 也 为 不 均衡 搭配 ， 因 为 
虽然 这 两 列 所 构成 的 元 素 对 是 一 个 “完全 对 ” 但 并 不 是 每 个 元 素 对 出 现 的 次 数 都 一样 ， 如 
元 素 对 〈1,1) 出 现 一 次 ， 而 元 素 对 〈12) 却 出 现 3 次 。 显 然 ， 如 果 一 个 矩阵 的 第 列 与 第 7 
列 均衡 搭配 时 ， 那 么 ， 它 的 第 7 列 与 第 : 列 也 必然 是 均衡 搭配 的 ， 反 之 ， 亦 然 。 因 此 ， 当 考 
察 了 第 忆 7 两 列 的 元 素 对 后 ， 就 不 必 再 去 考察 第 六 两 列 的 元 素 对 了 。 

2. 正 交 表 的 定义 与 格式 

(1) 正 交 表 的 定义 


元 统计 4 分 析 





有 了 “均衡 搭配 ”的 概念 ， 就 可 以 给 正 交 表 下 定义 了 。 
设 4 是 一 个 nx 大 矩阵， 它 的 第 7 了 列 的 元 素 由 数码 12,… 六 (= 2…, 提 所 构成 ， 如 果 了 4 


的 任意 两 列 都 均衡 搭配 ， 则 称 4 是 一 个 正 交 表 。 
例如 ，4x3 和 珑 阵 4 为 他 
1 和 
下 2 2 
4 = 
2 1 2 
2 2 


本 诈 中 件 关 全 的 辣 行 全 条 在 本 同和 作 全 全 全 全 全 生生 人 人 全 作 人 
(2,1)、(2,2)。 
这 是 一 个 “完全 对 ” 且 每 个 数 对 都 出 现 一 次 ， 因 此 和 托 阵 4 的 任何 两 列 搭配 都 是 均衡 
的 ， 所 以 4 是 一 张 正 交 表 。 
又 如 :8x5 乞 阵 至 为 


一 一 忆 一 一 


1 
2 
2 
1 
2 
1 
1 


人 wh 一 一 


一 


4 2 2 
该 矩阵 第 一 列 与 其 余 任 意 列 所 构成 的 “元 素 对 ”中 ， 都 有 8 个 数字 对 : 
(1,1)，(12)，(2,1)，(2,2)，(3,1)，(3,2)，(4,1)，(4,2) 

这 是 一 个 “完全 对 ” 上 且 每 个 数字 均 出 现 一 次 ;而 第 二 、 三 、 四 、 五 列 间 的 任意 两 列 所 构成 
的 “元 素 对 ”中 ， 都 含 4 个 数字 对 〈1,1)，(12)，(2,1)，(2,2 )。 

这 是 一 个 “完全 对 ” 且 每 个 数字 均 出 现 两 次 ， 所 以 ， 刃 也 是 一 张 正 交 表 。 

(2) 正 交 表 的 格式 

在 正 交 实验 设计 中 ， 常 把 正 交 表 写 成 表格 的 形式 ， 并 在 其 左边 写 上 行 号 〈 实 验 号 )， 在 
其 上 方 扎 上 列 号 〈 因 素 号 )。 上 文 提 到 的 正 交 表 4 可 表示 为 表 8-2 所 示 的 格式 ， 这 是 一 张 最 
简单 的 正 交 表 。 


表 8-2 正 交 表 L4(23) 








为 了 使 用 方便 和 便于 记忆 ， 正 交 表 的 名 称 一 般 简 记 为 


(0 X 7 xX…X1t) 

其 中 ， 世 为 正 作 表 代 号 〈Latin 的 第 一 个 字母 )，7 代表 正 交 表 的 行 数 或 部 分 实验 组 合 处 理 
数 ， 即 用 止 交 表 安 排 实验 时 ， 应 实施 的 实验 次 数 。mm xm x…xm 表示 正 交 表 共 有 大 列 〈 最 
多 可 安排 人 个 因素 )， 每 列 水 平 数 分 别 为 四 ,mp，……mml。 

任何 一 个 正 交 表 己 (ma x mp x xm ) 都 有 一 个 对 应 的 具体 表格 。 志 ,简明 易 记 ， 表 格 则 几 
二 安排 实验 方案 和 进行 实验 结果 分 析 。 

3. 正 交 表 的 分 类 及 特点 

《1) 等 水 平 正 交 表 

在 正 交 表 已 (mm xp x…xm) 中 ， 若 而 =m =… 和 = ， 则 称 为 等 水 平 正 交 表 ， 简 记 为 
必 ( 咏 ) 。 式 中 ，7 为 实验 次 数 ， 疡 为 因素 的 水 半数 ，K 为 正 交 表 的 列 数 ， 即 最 多 可 安排 的 因 
索 数 。 表 8-2 所 示 的 正 交 表 可 简 记 为 已 (23) 。 常 用 的 等 水 平 止 表 如 下: 

一 水 平 表 : 忆 (2) ， 玉 (27) ， 志 (25) 

二 水 半 表 :局 (3 ) ， 忆 (33)， 屡 ,(G3) 

四 水 平 表 : (4) ，L(42) ，… 

石 水 平 表 : 己 ;(3) ， 忆 (5331) ，… 

等 水 平 止 交 表 分 为 标准 表 和 非 标准 表 两 类 。 上 面 列 出 的 都 是 标准 表 ， 标 准 表 具 有 以 下 特 


J 标准 表 的 结构 特点 : 








@ 水 平 数 相 同 的 标准 表 ， 任 意 两 个 相 邻 表 具有 以 下 关系 ; 
1 = 12,…. 
Ar = 证 十 帮 ， 
显然 ， 只 要 水 平 严 确定 了 ， 第 ; 张 标准 正 交 表 就 随 之 确定 了 。 因 此 ， 六 是 构造 标准 正 交 
表 的 重要 参数 。 对 于 任何 水 平 的 标准 表 ， 当 ;= 工时 ， 都 确定 了 最 小 号 正 交 表 。 
@ 利用 标准 表 可 以 考察 因素 间 的 交互 作用 。 
非 标准 正 交 表 是 为 了 缩小 标准 表 实 验 号 的 间隔 而 提出 来 的 。 常 用 的 非 标准 表 如 下 : 
三 水 平 表 ; 瑟 (2 (2977 元 (2273 < 
其 他 水 平 表 : DasG 7 )， 记 (42) ， Lo(50) ，… 
非 标准 正 交 表 昌 然 为 等 水 平 表 ， 但 却 不 能 考察 因素 间 的 交 五 作用 。 在 实验 中 ， 如 想 考察 
因素 间 的 交互 作用 ， 不 能 选用 此 类 表 安 排 实验 。 
《2) 混合 水 平 正 交 表 
在 正 交 表 疡 (ml xm x…xm) 中 ， 如 果 和 四 ,mm 不 完全 相等 ， 则 称 为 混合 水 平 正 交 
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表 。 其 中 ， 最 常用 的 是 志 (mxm4) 混合 正 交 表 。 式 中 ，m" 表示 水 平 数 为 所 的 有 委 列 ， 
mm 好 表示 水 平 数 为 m 的 有 kt2 列 。 用 这 类 止 交 表 安排 实验 时 ， 水 平 数 为 mm 的 因素 最 多 品 安排 
1 个 ， 水 平 数 为 mr, 的 因素 最 多 可 安排 上 2 个 。 如 前 述 的 8xs 算 阵 召 就 是 一 张 混合 型 正 父 
表 ， 可 简 记 为 及 (4x23) 。 此 表 可 安排 一 个 四 水 平 因素 和 二 水 半 因 素 。 

常用 混合 型 正 父 表 如 下 : 

及 (4x2 ); 

忆 (3x23)，Lo(6x27); 

局 (4x22)， 忆 (4 x2?): 


忆 (4x25)， 忆 (4 x2)，… 

用 混合 型 正 交 表 一 般 不 能 考察 交互 作用 ， 但 由 标准 表 通 过 并 列 法 改造 来 的 混合 型 正 父 表 
(如 到 (4x24) 由 到 (27) 并 列 得 到 ，As(4x22) ， 症 (042 x2) 等 由 已 (2 ) 并 列 得 到 )， 可 以 考 
察 交 互 作用 ， 但 必须 回 到 原 标 准 表 上 进行 。 

4. 正 交 表 的 基本 性 质 

由 正 交 表 的 定义 ， 可 得 出 正 父 表 具 有 下 列 性 质 。 

(1) 止 交 性 

正 交 表 正 交 性 的 主要 内 容 是 : 

@ 在 任 一 列 中 各 水 平 都 出 现 ， 且 出 现 的 次 数 相 等 。 

@@ 任何 两 列 之 间 ， 各 种 不 同 水 平 的 所 有 可 能 组 合 都 出 现 ， 且 出 现 的 次 数 相等 。 

上 述 两 条 是 判断 一 个 正 交 表 是 否 具有 正 交 性 的 必要 条 件 。 

由 正 交 表 的 正 交 性 可 以 看 出 ; 

@ 正 交 表 的 各 列 的 地 位 是 平等 的 ， 表 中 各 列 之 间 可 以 相互 置换 ， 称 为 列 问 置换 。 

@@ 止 交 表 各 行 之 间 也 可 相互 置换 ， 称 为 行 间 置 换 。 

图 正 交 表 的 同一 列 的 水 平 数 也 可 以 相互 置换 ， 称 为 水 平 曾 换 。 

上 述 3 种 跨 换 称 为 赴 交 表 的 3 种 初等 变换 。 经 过 初等 变换 所 得 到 的 正 父 表 ， 称 为 原 正 交 
表 的 等 价 表 。 在 实际 应 用 时 ， 可 根据 不 同 的 实验 要 求 ， 把 一 个 正 交 表 变 换 成 与 之 等 价 的 其 他 
特殊 形式 的 正 交 表 。 

(2) 代表 性 

正 交 表 的 代表 性 有 两 方面 的 含义 。 一 方面 ， 由 于 正 交 表 的 止 交 性 : 中 任意 一 列 的 各 水 
于 都 出 现 ， 使 得 部 分 实验 中 包含 了 所 有 因素 的 所 有 水 半 。@ 任意 两 列 的 所 有 水 平 都 出 现 ， 
使 得 对 任意 两 个 因素 的 所 有 水 平 信息 及 任意 两 因素 间 的 所 有 组 合 信息 无 一 遗 洽 。 这 样 ， 虽 然 
正 交 表 安 排 的 只 是 部 分 实验 ， 但 却 能 了 解 到 全 耐 实验 的 情况 ， 在 这 个 意义 上 ， 部 分 实验 可 以 
代表 全 面 实验 。 

另 一 方面 ， 由 于 正 交 表 的 正 交 性 ， 正 交 实 验 的 实验 点 必然 均衡 地 分 布 在 全 面 实验 点 中 ， 
有 具有 很 强 的 代表 性 。 因 此 ， 部 分 实验 妾 找 的 最 优 条 件 与 全 面 实验 所 找 的 最 优 条 件 ， 应 有 一 致 
的 趋势 。 

(3) 综合 可 比 性 

由 于 正 交 表 的 正 交 性 : @ 任意 一 列 各 水 平 出 现 的 次 数 相等 。@) 任意 两 列 间 所 有 水 平 组 








合 出 现 的 次 数 相等 ， 使 得 任意 因素 各 水 平 的 实验 条 件 相同 。 这 保证 了 在 每 列 因素 各 水 平 的 效 
果 中 ， 最 大 限度 地 排除 了 其 他 因素 的 干扰 ， 从 而 可 以 综合 比较 该 因素 不 同 水 平 对 实验 指标 的 
影响 情况 。 这 种 性 质 称 为 综合 可 比 性 。 

在 正 交 表 的 3 个 性 质 中 ， 正 作 性 是 核心 ， 是 基础 ， 代 表 性 和 综合 可 比 性 是 正 交 性 的 必然 


结果 ， 从 而 使 正 交 表 得 以 具体 应 用。 
区 多 不 考虑 交互 作用 正 交 实验 设计 的 基本 程序 分 析 } 

在 止 父 实验 中 有 “不 考虑 父 互 作 用 正 交 实验 设计 ”和 “考虑 交互 作用 正 交 实 验 设 计 ” 两 
种 基本 程序 分 析 。 木 书 只 对 “不 考虑 交互 作用 正 交 实验 设计 ”进行 介绍 ， 关 于 “考虑 交互 作 
用 止 余 实验 设计 ”的 内 容 ， 有 兴趣 的 读者 请 参考 相关 资料 。 

止 奖 实验 设计 的 基本 程序 包括 实验 方案 设计 及 实验 结果 分 析 两 大 部 分 。 

1. 实验 方案 设计 

F 面 通过 一 个 有 具体 的 丰 例 说 明 实 验方 案 设计 的 内 容 。 

【 例 8-6】 昕 酒 酵母 最 适 白 溶 条 件 实验 。 

月 浴 醇 母 提取 物 是 一 种 多 用 途 食品 配料 。 为 探讨 外 加 中 型 蛋白 酶 方法 ， 需 做 啤酒 酵母 的 
最 适 自 溶 条 件 实验 。 拟 通过 止 交 实验 寻找 最 优 荆 艺 条 件 。 

在 安排 实验 时 ， 一 般 应 考虑 如 下 几 步 。 

1) 确定 实验 指标 

实验 指标 是 由 实验 目的 决定 的 ， 因 此 实验 设计 之 前 ， 必 然 明 确实 验 的 目的 ， 对 实验 所 要 
解决 的 问题 ， 应 有 全 面 、 深 刻 的 理解 。 通 过 周密 考虑 ， 确 定 实验 指标 。 一 项 实验 目的 ， 至 少 
和 击 要 一 个 实验 指标 ， 而 有 时 在 同一 项 实验 中 ， 由 于 有 几 个 不 同 的 实验 目的 ， 相 应 地 ， 需 要 多 
个 实验 指标 。 这 要 根据 专业 知识 和 实验 要 求 ， 具 体 问题 具体 分 析 ， 合 理 确定 实验 指标 。 

对 本 例 ， 实 验 目的 是 寻找 啤酒 酵母 的 最 适 自 溶 条 件 。 自 溶液 中 蛋白 质 含 量 (%) 作为 实 
验 指 标 ， 蛋 白质 含量 越 高 越 好 。 

实验 指标 一 经 确定 ， 就 应 该 把 衡量 和 评价 实验 指标 的 原则 、 标 准 ， 测 定 实验 指标 的 方法 
及 所 用 仪器 设备 等 确定 下 来 。 这 本 身 就 是 一 项 十 分 细致 而 复杂 的 工作 。 

(2) 选择 实验 因素 

选择 实验 因素 时 ， 首 先 要 根据 专业 知识 ， 以 往 研 究 的 结论 和 经 验 教训 ， 尽 可 能 全 而 地 考 
虑 到 影响 实验 指标 的 诸 因 素 。 然 后 根据 实验 要 求 和 尽量 少 选 因素 的 一 般 原 则 ， 从 中 选 定 实验 
因素 。 在 实际 确定 实验 因素 时 ， 应 首先 选取 对 实验 指标 影响 大 的 因素 ， 尚 未 完全 掌握 其 规律 
的 因素 和 本 曾 被 考察 研究 过 的 因素 。 那 些 对 实验 指标 影响 较 小 的 因素 ， 对 实验 指标 匙 响 规 律 
已 完全 掌握 的 因素 ， 应 当 少 选 或 不 选 ， 但 要 作为 可 控 的 条 件 因 素 参 加 实验 。 实 验 要 求 考察 的 
因素 必须 定 为 实验 因素 ， 不 能 遗漏 ， 并 且 有 时 列 为 主要 因素 ， 进 行 重点 考察 。 

人 在 某 些 情况 下 ， 可 以 考虑 多 安排 一 些 因素 。 例 如 ， 在 初步 筛选 因素 时 ， 在 增加 因素 而 可 
以 不 增加 实验 号 时 ， 都 可 多 选 定 一 些 实验 因素 。 

对 本 例 ， 影 响 蛋 白质 含量 的 因素 很 多 ， 最 后 确定 酶 解 温度 、pH 值 、 加 酶 量 为 实验 因 
素 ， 分 别 以 4，B8，C 表示 ， 进 行 3 因素 正 交 实 验 ， 其 他 因素 作为 实验 条 件 处 理 。 

《3) 选取 实验 因素 水 平 ， 列 出 因素 水 平 表 

根据 因素 水 平 是 作 量 的 变化 还 是 作 质 的 变化 ， 可 把 实验 因素 分 为 数量 因素 和 质量 因 
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素 。 例 如 ， 温 度 、 时 间 、 原 料 用 量 等 ， 其 水 平 可 作 量 的 变化 ， 属 数量 因素 ;， 添加剂 种 
类 、 设 备 弄 号、 工艺 加 工 方法 等 ， 其 水 平 是 由 特定 的 质 〈 品 种 、 牌 号 等 ) 所 决定 的 ， 属 
质量 因素 。 对 质量 因素 ， 应 选 的 水 平常 常 早 就 定 下 米 了 ， 璧 如 使 用 了 3 种 食品 添加 剂 ， 
则 添加 剂 种 类 这 个 实验 因素 的 水 平 数 只 能 取 3。 而 对 于 数量 因素 或 希望 更 多 了 解 的 实验 因 人 >， 


本 


素 ， 可 以 多 取水 平 。 

从 有 利于 实验 结果 的 分 析 考 虑 ， 水 平 取 3 比 取 2 好 。 这 是 因为 3 水 平 的 因素 与 实验 指 慰 
趋势 终 多 数 为 一 次 曲线 ， 如 多 8-9 所 示 ， 二 次 曲线 有 利 十 呈现 实验 因素 水 半 的 最 佳 区 域 。 如 
果实 验 指标 越 高 越 好 ， 由 图 8-9 可 得 出 :“ 温 度 最 佳 条 件 在 100~140C 之 间 ” 的 结论 。 而 二 
水 平 因素 与 实验 结果 趋势 图 为 线性 的 ， 如 图 8-10 所 示 ， 只 能 得 到 因素 水 半 效 应 的 趋向 ， 很 
难 呈 现 出 最 佳 区 域 ， 由 图 8-10 只 能 得 出 “温度 为 140C 时 的 实验 指标 比 100C 时 的 高 ”这 一 
结论 ， 最 佳 条 件 是 在 比 140C 更 高 的 温度 ， 还 是 在 100 一 140C 之 间 ， 无 法 判断 。 





[~ 

名 经 

仍 前 

OO 100 120 140 OO 100 120 140 
温度 PC 汕 度 "C 

图 8-9 实验 指标 图 1 图 8-10 实验 指标 图 2 


水 平 的 幅度 ， 不 宜 选 得 过 宽 或 过 罕 。 过 窄 时， 实验 结果 可 能 得 不 到 任何 有 用 的 信息 ;过 
党 ， 会 降低 实验 的 效率 。 应 根据 专业 技术 知识 和 已 有 的 有 关 资 料 ， 尽 可 能 把 水 平 值 取 在 最 佳 
区 域 或 接近 最 佳 区 域 。 如 果 因 经 验 或 资料 不 足 ， 不 能 保证 把 水 平 取 在 最 佳 区 域 附 近 ， 则 需要 
把 水 半 区 域 拉 开 ， 尽 可 能 使 最 佳 区 域 包 含 在 拉 开 的 区 域内 。 然 后 通过 一 一 套 实验 ， 逐 步 缩小 
水 平 区 ， 求 出 其 最 佳 条 件 。 

对 例 8-6 中 的 各 因素 均 选 取 3 个 水 半 ， 再 根据 专业 知识 和 有 关 资 料 ， 确 定 每 个 因素 的 水 
平 值 。 最 后 得 到 因素 水 平 见 表 8-3。 


表 8-3 ”啤酒 酵母 最 适 自 溶 条 件 因素 水 平 表 
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《4) 选择 合适 的 正 交 表 

确定 实验 因素 水 平 后 ， 接 下 来 的 工作 就 是 选择 一 张 合适 的 正 交 表 。 所 选 正 交 表 必须 满足 
以 下 条 件 : 

J 对 等 水 平实 验 ， 所 选 正 交 表 的 水 平 数 与 实验 因素 的 水 平 应 一 致 ， 正 交 表 的 列 数 应 大 
于 或 等 于 因素 及 所 要 考察 的 交互 作用 所 占 的 列 数 。 

包 对 不 等 水 平实 验 ， 所 选 混合 型 正 交 表 的 某 一 水 平 的 列 数 应 大 于 或 等 于 相应 水 平 的 因 





泰 的 个 数 。 

选择 正 父 表 是 一 个 很 重要 的 问题 。 表 选 得 太 小 ， 实 验 因素 和 要 考察 的 灾 互 作用 就 可 能 放 
不 下 ， 表 选 得 太 大 ， 实 验 次 数 就 多 ， 不 符合 经 济 节 约 的 原则 。 选 正 父 表 的 原则 是 : 在 能 安排 
下 实验 因素 和 要 考察 的 交 下 作用 的 前 提 下 ， 信 可 能 选择 用 小 号 正 交 表 ， 以 减少 实验 次 数 。 另 
外 ， 为 考 红 实验 误差 ， 所 选 正 父 表 安 排 完 实验 因素 及 要 考察 的 父 互 作用 后 ， 最 好 有 1 空 列 ， 
和 否则， 必须 进行 重复 实验 以 考察 实验 误差 。 

本 例 是 3 因素 水 平实 验 ， 可 选 己 (3 ) 正 交 表 。 

(5) 表 头 设计 

止 伙 表 的 每 一 列 可 以 安排 -个 实验 因素 。 所 谓 表 头 设计 ， 就 是 将 实验 因素 分 别 安排 他 
所 选 正 父 表 的 各 列 中 的 过 程 。 如 果 因 素 间 无 父 互 作用 ， 各 因素 可 以 任意 安排 到 止 父 表 的 各 ， 
列 中 去 :如果 要 考察 父 互 作 用 ， 各 因素 不 能 任意 安排 ， 应 按 所 选 正 交 表 的 父 开 作 用 表 进 行 
安排 。 把 内 素 对 蕊 入 座 ， 分 别 安排 在 止 伙 表 的 各 列 中 后 ， 列 出 表 头 设计 。 对 本 例 ， 表 头 设 
计 见 表 8-4。 

表 8-4 例 8-6 表 头 设计 
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(6) 纲 制 实验 方案 
在 表 头 设计 的 基础 上 ， 将 所 选 正 交 表 中 各 列 的 水 平 数字 换 成 对 应 因素 的 具体 水 半 什 ， 便 
形成 了 实验 方案 。 它 是 实际 进行 实验 方案 的 依据 。 
例 8-6 的 实验 方案 见 表 8-5。 
表 8-5 啤酒 酵母 最 适 自 溶 条 件 实验 方案 及 实验 结果 
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表 8-5 中 每 个 实验 号 对 应 一 个 组 合 处 理 ， 例 如 ; 

第 一 号 实验 : 4,B ,CI ， 即 酶 解 温度 为 SOC，pH 值 为 6.5， 加 酶 量 为 2.0%。 

全 此 ， 实 验方 案 设计 就 算 完成 了 ， 随 后 就 可 以 实施 实验 。 在 实验 过 程 中 ， 必 须 严 格 按照 
各 号 实验 的 组 合 处 理 进行 ， 不 能 随意 改动 。 实 验 因素 必须 严格 控制 ， 实 验 条 件 应 尽量 保持 一 
致 。 必 外， 实验 方案 中 的 实验 号 并 不 意味 着 实际 进行 实验 的 顺序 ， 为 了 加 快 实验 ， 最 好 同时 
进行 实验 ， 同 时 取得 实验 结果 。 如 果 条 件 只 允许 一 个 一 个 地 进行 实验 ， 为 了 排除 外 界 干扰 ， 
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点 使 实验 序列 号 随机 化 ， 即 采用 抽签 、 掷 内 子 或 查 随机 数 表 的 方法 确定 实验 顺序 。 无 论 几 人 
么 顺序 进行 实验 ， 一 般 部 应 进行 重复 实验 ， 以 减少 随机 误差 对 实验 的 影响 。 

实验 结束 后 ， 将 实验 结果 直接 填 入 实验 指标 栏 内 ， 用 国 , 吉 wx 表示。 例 8-6 的 实验 结 
果 见 表 8-5 的 最 后 一 栏 。 

止 斧 实验 的 实验 结果 也 可 以 不 作 处 理 ， 而 进行 “直接 看 "。 如 果 由 表 8-5 中 的 9 个 实验 
数据 可 以 看 出 ，7 号 实验 的 蛋白 质 含 量 最 高 。 但 不 能 就 此 判断 7 号 实验 条 件 〈4BC; ) 最 
好 。 因 为 毕竟 只 做 了 9 次 实验 ， 仅 占 3 因素 3 水 半 全 面 实验 的 13。 不 能 保证 全 面 实验 中 的 
最 优 纽 合 战 在 所 做 的 实验 中 。 另 一 方面 ， 还 希望 利用 这 9 个 实验 数据 提供 的 信息 ， 了 解 各 因 
过 对 实验 指 栋 的 影响 的 重要 程度 及 规律 性 ， 为 此 ， 必 须 对 实验 结果 进行 计算 分 析 。 

通过 对 实验 结果 的 分 析 ， 可 以 解决 以 下 问题 

GD 分 清 各 因素 及 其 交工 作用 的 主 次 顺序 ， 即 分 清 哪 个 是 主要 因素 ， 哪 个 是 次 要 因素 。 

@ 判断 因素 对 实验 指标 影响 的 显著 程度 。 

@ 找 出 实验 因素 的 优 水 半 和 实验 范围 内 的 最 优 组 合 ， 即 实验 因素 各 取 什 么 水 平时 ， 实 
验 指 怀 最 好 。 

曲 分 析 因 素 与 实验 指标 的 关系 ， 即 当 因 素 变化 时 ， 实 验 指标 是 如 何 变化 的 。 找 出 指 栋 
随 因素 变化 的 规律 和 趋势 ， 为 进一步 实验 指明 方向 。 

图 了 解 各 因素 之 问 的 父 互 作用 情况 。 

@ 估计 实验 误差 的 大 小 。 

正 交 实验 结果 的 分 析 方 法 有 两 种 ， 即 极 差分 析 法 〈 直 观 分 析 法 ) 和 方差 分 析 法 。 

2. 正 交 实验 设计 的 极 差分 析 

极 兽 分 析 又 称 直观 分 析 法 。 它 具有 计算 简 使 ， 直 观 形象 ， 简 单 易 民 等 优点 ， 古 止 斧 实验 
结果 分 析 最 常用 的 方法 。 

极 差 分 析 的 方法 简称 为 尽 法 。 它 包括 计算 和 判断 两 个 步骤 ， 其 内 容 如 图 8-11 所 示 。 
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图 8-11 R 法 示意 岁 
在 网 8-11 中 ，Km 为 第 7 列 因素 轿 水 平 所 对 应 的 实验 指标 和 。 由 龙 。 的 大 小 可 以 判断 
7 列 因 素 的 优 水 平和 各 因素 的 优 水 半 组 合 ， 即 最 优 组 合 。 
在 图 8-11 中 ，RR 为 第 7 列 因 素 的 极 差 ， 即 7 了 列 因素 各 水 平 下 的 指标 最 大 值 和 最 小 值 之 差 
及 =max( 大 六 天 7 天 向 ) 一 min( 天 六 大 天) 
及 反映 了 第 7 了 列 因 素 的 水 平 变动 时 ， 实 验 指 标的 变动 幅度 。R) 越 大 ， 说 明 该 因素 对 实 
验 指标 的 影响 越 大 ， 因 此 也 就 越 重要 。 于 是 依据 极 差 R; 的 大 小 ， 就 可 以 判断 因素 的 主 次 。 











极 差 分 析 法 的 计算 与 判断 可 直接 在 实验 结果 分 析 表 上 进行 。 现 以 例 8-6 来 说 明 单 指标 正 
交 实 验 结果 的 极 差分 析 法 。 

(1) 确定 因素 的 优 水 平和 最 优 水 平 组 合 

首先 分 析 4 因素 各 水 平 对 实验 指标 的 影响 。 从 表 8-5 得 出 ，44 的 作用 只 反映 在 1，2，3 
人 切实 验 中 ， 灰 的 作用 只 反映 在 4，5，6 号 实验 中 ， 本 的 作用 只 反映 在 7，8，9 号 实验 中 。 
或 者 说 ， 为 了 考察 和 的 作用 ， 进 行 了 一 组 实验 ， 即 由 1，2，3 号 实验 组 成 ， 为 了 考察 4 的 
作用 ， 进 行 了 一 组 实验 ， 即 由 4，5，6 号 实验 组 成 ; 为 了 考察 省 的 作用 ， 也 进行 了 一 组 实 
验 ， 即 由 7，8，9 号 实验 组 成 。 

4 因素 1 水 平 所 对 应 的 实验 指标 和 为 人 = 交 + + 为 =6.25+4.97+4.45=15.67 。 

4 因素 2 水 平 所 对 应 的 实验 指标 和 为 KK = 加 +x+ 如 =7.53+5.54+5.5=18.57 。 

4 因素 3 水 平 所 对 应 的 实验 指标 和 为 K, = 冯 + 如 + 她 =11.4+10.9+8.95=31.25 。 

由 表 8-5 可 以 看 出 ， 考 察 4 因素 进行 的 3 组 实验 由 ，8,C 因素 各 水 平 都 只 出 现 了 一 次 ， 
且 由 二 BC 间 无 交互 作用 ，8,C 因素 的 各 水 平 的 不 同 组 合 对 实验 指标 无 影响 。 因 此 ， 对 
4 省 , 才 来 说 ，3 组 实验 的 实验 条 件 是 完全 一 样 的 。 如 果 因 素 4 对 实验 指标 无 影响 ， 那 么 
KK ,KK 应 该 相等 ， 但 由 上 面 的 计算 知道 ，K ,KK 实际 上 不 相同 ， 最 然 ， 这 是 由 于 
4 因素 变动 水 平 引起 的 ， 因 此 ，Ks,&A4,K4 的 大 小 反映 了 K4 ,KKA 对 实验 指标 影响 的 大 
小 。 由 于 蛋白 质 含量 越 大 越 好 ， 而 KK <K， <K， ， 所 以 可 以 判断 太 ， 为 4 因素 的 优 水 平 。 

同 理 ， 可 以 计算 并 判断 孔 ,Ci 分 别 为 B,C 因素 的 优 水 平 。 而 汪 B,C 3 准 因 素 的 优 水 平 组 
合 汉 BC 即 为 本 实验 的 最 优 水 平 组 合 ， 即 加 酶 自 溶 酵母 提取 蛋白 质 含量 的 最 优 工艺 条 件 为 酶 
解 温度 为 58"C ，pH 值 6.5， 加 酶 基 2.0%。 

上 上述 K 的 计算 与 优 水 平 判断 见 表 8-6。 


表 8-6 啤酒 酵母 最 适 自 深 条件 实验 结果 分 析 
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六 【多 元 统计 分 析 





(2) 确定 因素 主 次 顺序 

极 差 R 可 按照 上 述 定义 计算 ， 如 R4 =K4 -天 4 =15.58， 同 理 ， 可 计算 出 其 他 各 列 的 极 
差 。 计 算 结果 列 于 玫 8-6 中 。 比 较 各 尺 值 可 见 ，R, > R > R_， 所 以 因素 对 实验 指标 影响 的 
主 次 顺序 为 48C ， 即 酶 解 温度 影响 最 大 ， 其 次 是 pH 值 ， 而 加 酶 量 的 影响 最 小 。 人 > 

(3) 绘制 因素 水 平 与 指标 趋势 图 

为 了 更 直观 地 反映 因素 对 实验 指标 的 影响 规律 和 趋势 ， 以 因素 水 平 为 横 坐标 ， 以 实验 指 
标 值 (或 平均 值 ) ( K。) 为 纵 坐 标 ， 绘 制 因素 与 指标 趋势 图 ， 又 称 关系 图 ， 如 图 8-12 所 
小 。 

因素 与 指标 趋势 图 可 以 直观 地 说 明 指标 随 因素 水 平 的 变化 而 变化 的 趋势 ， 可 为 进一步 实 
验 时 选择 因素 水 平和 指标 方向 。 

以 上 即 为 极 差分 析 的 基本 程序 和 方法 。 
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几 8-12 内 素 与 指标 趋势 图 


3, 正 交 实验 设计 的 方差 分 析 

正 交 实验 设计 的 极 差 分 析 简 单 易 行 ， 计 算 基 小 ， 也 比较 直观 ， 便 于 普及 与 推广 。 但 是 ， 
这 种 方法 不 能 把 实验 中 由 于 实验 条 件 的 改变 引起 的 数据 波动 同 实验 误差 引起 的 数据 波动 区 分 
开 来 。 也 就 是 说 ， 不 能 区 分 因素 各 水 平 问 对 应 的 实验 结果 的 差异 究竟 是 由 于 因素 水 平 不 同 引 
起 的 ， 还 是 由 于 实验 误差 引起 的 ， 因 此 不 能 知道 实验 的 精度 。 同 时 ， 各 因素 对 实验 结果 影响 
的 重要 程度 ， 不 能 给 予 精 确 的 数量 估计 ， 也 不 能 提出 一 个 标准 ， 用 来 判断 所 考察 的 因素 的 作 
用 是 否 显著 。 为 了 吹 补 极 差分 析 法 的 不 足 ， 对 正 交 实 验 结果 可 采用 方 养分 析 法 。 

《1) 偏差 平方 和 与 自由 度 的 计算 

方差 分 析 的 关键 是 偏差 平方 和 的 分 解 ， 由 前 面 介 绍 的 方差 分 析 知 ; 


总 偏差 平方 和 与 总 自由 度 为 
5 = yn- 可， 万 =1=-1 (8-5) 
各 列 偏差 平方 和 与 自由 度 为 
Si =r》( - 驹 7.J=12…， 万 = 六 -1 08-6) 





误差 偏差 平方 和 与 自由 度 为 


& = 8， ? 太 =2 1 《8-7) 
各 好 
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Sr 了 ) =2》.Si+2》 SI+2 5 (8-8) 
/= 向 交 入 
大 
-7 多 7 多 思 和 (8-9) 
器 末 大。 


式 中 ， 策 ， 习 ， 季 :分别 为 实验 因素 、 实 验 考察 的 交互 作用 和 空 列 在 正 交 表 中 所 占 的 列 数 ， 且 
K= 后 十 K 十 大 (8-10) 


式 〈8-8) 表明 ， 总 侦 差 平方 和 Sr 等 于 正 交 表 所 有 列 的 偏差 平方 和 ， 等 于 所 有 实验 因 
素 、 实 验 所 考察 的 交互 作用 和 空 列 的 偏差 平方 和 之 和 。 式 〈8-9) 表明 ， 目 由 度 亡 洗 于 各 列 
白 由 度 之 和 ， 等 于 实验 因素 、 实 验 所 考察 的 交互 作用 和 空 列 的 自由 度 之 和 。 尚 需 注意 : @D 当 
某 个 交互 作用 占有 正 交 表 的 某 几 列 时 ， 沪 交 下 作用 的 偏差 平方 和 就 等 于 所 占 各 列 的 偏差 平 广 
和 之 和 ， 其 自由 度 也 等 于 所 占 各 列 的 自由 度 之 和 。 包 主 交 表 有 几 个 空 列 ， 误 差 的 偏差 半 方 和 
就 等 于 所 有 空 列 的 偏差 平方 和 之 和 ， 其 自由 度 等 于 所 有 空 列 的 自由 度 之 和 。 


现 以 最 简单 的 到 (23) 正 交 表 【〈 见 表 8-7) 安排 的 实验 为 例 加 以 说 明 。 


表 8-7 正 交 表 LA(2?) 
| 
1 1 1 

2 2 
2 2 
2 2 
大 1 三 习 十 如 大 = 寻 十 太 克 D = 十 区 
大 21 三 为 十 和 K22 = 六 十 蕊 大 2 = 各 十 轨 
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天 = 国 + 冯 /2 开 2 = 习 二 为 /2 天 3 = 辐 + 双 /2 


天 开 三 = 习 + 和 十 克 才 14 
大 21 = 为 +/2 大 2 = 六 +0/2 天 ;= 冯 +m12 1 十 到 十 旺 十 妈 
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第 一 列 各 水 平 的 偏差 平方 和 为 


ET 





Si = 2( 开 | 一 交 ) 2 +2( 天 一 了 ) 


2 2 
-人 -可 -合约 -ae 


= 十 六 十 冯 + 芭 ) -二 (xz 十 因 区 十 六 十 2 一 一 六 寻 4) 
同 理 ， 可 计算 出 第 二 ， 三 列 各 水 平 的 偏差 平方 和 $,,S; 分 别 为 


9 =2( 开 ,一 站 2 +2( 天 ,一元 )? -让 + A)- 卫 7 | 





@ 


= 二 ( 十 好 十 交 + 妆 ) 一 十 (0 十 为 驹 十 六 驹 十 驹 疯 一 为 六 一 总 骏 ) 
S, =2( 扩 -如 2+2( 尼 ，- 习 ? = 站 +K2 ) 了 


= 了 (9 十 交 + 六 + 妆 ) 一 二 (六 十 入 区 十 和 区 十 芭 敬 一 为 敬 一 六 入 ) 
由 此 ， 可 得 
S7 = 二 S TS 
若 在 怀 (22) 正 交 表 的 第 一 、 第 二 列 分 别 安排 二 水 平 因素 48 ， 则 Si,S, 分 别 是 因素 尹 B 
的 偏差 平方 和 .84,Ss 。 在 不 考虑 交互 作用 的 情况 下 ， 空 列 〈 第 三 列 ) 的 偏差 平方 和 S; ， 即 为 
误差 的 偏差 平方 和 S. ， 则 有 
Sr =S1+96+S。 
可 以 把 上 例 推广 到 一 般 情况 : 用 正 交 表 乙 (om) 〈 表 8-7) 安排 实验 ， 实 验 次 数 为 ， 每 
个 因素 水 平 数 为 刀 ， 每 个 水 平 做 ma/z 次 实验 ， 实 验 结果 为 区 xp ， 令 
间 2 亚 
T=》z， Cr = 三 ， -7 


i=1 


则 总 偏差 平方 和 
Sr 下 -2 和 -C (8-11) 
总 偏差 平方 和 7y 是 所 有 数据 与 其 总 平均 值 的 偏差 平方 和 ， 它 反映 实验 数据 的 总 波动 。 
列 偏差 平方 和 


必 二 2 _1R 人 < 
Si =r2 (局 - 习 人 了 = 2 (8-12) 


i=] 


特别 地 ， 当 六 =2， 即 二 水 平时 ， 式 〈8-6) 可 表示 成 


1 2 1 
31 = 了 (7 十 K2/ 一 = 二 (KG 十 有 3) 一 二 (RD 十 大 2 


| 相 (8-13) 
二 2 二 
二 


列 偏差 平方 和 8) 是 第 7 了 列 中 各 水 平 对 应 的 实验 数据 平均 值 与 总 平均 值 的 偏差 平方 和 ， 它 





反映 该 列 水 平 变动 所 引起 的 实验 数据 的 波动 。 若 该 列 安排 的 是 因素 ， 就 称 $) 为 该 因素 的 偏差 
平方 利 ; 若 该 列 安排 的 交互 作用 ， 就 称 $) 为 该 交互 作用 的 偶 差 平方 和 ; 若 该 列 为 空 列 ， 则 
S) 表示 由 于 实验 误差 和 未 被 考察 的 某 些 交互 作用 或 某 条 件 因素 所 引起 的 波动 。 在 正 交 实验 设 
计 的 方差 分 析 中 ， 通 常 把 空 列 的 偏差 平方 和 作为 实验 误差 的 偏差 平方 和 ， 虽 然 它 属于 模型 误 
差 ， 一 般 比 实验 误差 大 ， 但 用 它 作为 实验 误差 进行 显著 性 检验 ， 可 使 检验 结果 更 可 靠 些 。 
现 计 算 例 8-6 中 各 列 的 偏差 平方 和 ; 
计算 各 列 各 水 平 对 应 数据 之 和 天 )K2 ,大 及 其 平方 ,KK ， 并 列 于 表 8-8 中 。 


根据 式 (8-12)，S) = 上 > K; - Cr， 得 
记 | 


c - 7 :| 2 
= 一 = 二 x65.582 = 477.86 
1 9 
交 人 = 了 xi +K2 +K2) 一 Cr 
= 了 278.38+ 344.84+976.56)- 477.86 = 55.4 


同 理 可 得 ，S， = 8 =6.49，S =8 =031，S. =S =0.83 。 填 入 表 8-8 的 最 后 一 行 


表 8-8 啤酒 酵母 最 适 自 溶 条 件 实验 的 偏差 平方 和 计算 表 


实验 指标 
Pr (%) 





(2) 显著 性 检验 

偏差 平方 和 的 大 小 与 其 自由 度 的 大 小 有 关 ， 不 能 直接 比较 ， 需 经 自由 度 平均 后 方 可 比 
较 。 将 各 偶 差 平方 和 除 以 各 自 相 应 的 白 由 度 ， 即 得 到 平均 偏差 平方 和 《〈 即 方差 )。 

在 正 交 实验 中 ， 各 因素 或 交互 作用 的 方差 等 于 该 因素 或 交互 作用 的 偏差 平方 和 除 以 各 自 
相应 的 自由 度 ， 即 


四 人 
几 = 久 ， 隆 = 产 ， 2 


数学 上 可 以 证 明 : 在 “假设 鼠 : 某 因素 或 某 交 互 作 用 不 显著 ”成 立时 ， 统 计量 


_ 陈 人 或 收 ) 


~ 天 [ 采 ( 或 Ah) 大] 《8-14) 





8 ET 


即 统计 量 服从 第 一 自由 度 为 启 (/Ax) ， 第 二 自由 度 为 大 的 严 分 布 。 因 此 ， 可 把 严 作为 检验 统 
计量 。 对 于 给 定 的 显著 性 水 平 we ， 查 出 临界 值 点 尺 ， 若 计算 出 的 严 值 瓦 > 尺 ， 则 拒绝 原 假 
设 互 ， 认 为 该 因素 或 该 交互 作用 对 实验 结果 有 显著 影响 ， 若 已 入 已 ， 则 接受 专 ， 认 为 该 
因素 或 交互 作用 对 实验 结果 无 显著 影响 。 

在 正 交 实验 方差 分 析 中 ， 还 应 该 注意 以 下 问题 ; 

@ 由 于 进行 书 检验 时 ， 要 用 误差 偏差 平方 和 8 及 自由 度 庆 ， 耐 


S=23，/=2 1 
kr 


因此 ， 为 进行 方差 分 析 ， 选 正 交 表 时 应 留 出 一 定 空 列 。 当 无 空 列 ， 又 无 廊 史 资 料 时 ， 应 选取 
更 大 号 的 正 交 表 以 造成 室 列 ， 或 进行 重复 实验 ， 以 求 得 8. ; 或 者 用 误差 偏差 平方 和 中 的 最 小 
者 作为 8 。 

@@ 误差 的 自由 度 一 般 不 应 小 于 2， 大 很 小 ， 书 检验 灵敏 度 很 低 ， 有 时 即使 因素 对 实验 
指标 有 影响 ， 用 已 检验 也 判断 不 出 来 。 

@ 为 了 增 大 矿 ， 提 高 刁 检验 的 灵敏 度 ， 在 进行 显著 性 检验 之 前 ， 先 把 各 个 因素 和 父 巨 
作用 的 方差 摧 和 内 与 误差 方差 矿 进 行 比较 。 如 果 与 误差 方差 的 大 小 相近 ， 说 明 该 因素 或 交 
互 作用 对 实验 结果 的 影响 微乎其微 ， 其 候 差 平方 和 是 由 随机 误差 引起 的 ， 因 此 可 并 入 误差 偏 
差 平方 和 $. 中 。 通 常 把 满足 

了 ( 或 把 ) 和 2 扩 
的 因素 或 交互 作用 的 偏差 平方 和 ， 并 入 误差 偏差 平方 和 8. 中， 而 得 到 新 的 误差 偏差 平方 和 
S* ， 相 应 的 自由 度 也 并 入 拓 中 ， 而 得 到 态 ， 然 后 用 
加 3( 或 Sx )/ 永 ( 或 挛 ) 
SA/ AS 
对 其 他 因素 或 交互 作用 进行 检验 。 这 样 ， 使 误差 偏差 平方 和 的 自由 度 上 增 大 ， 可 提高 亚 检 
验 的 灵敏 度 。 


多 国王 交 实 验 设计 分 析 的 应 用 示例 分 析 | 
【 例 8-7】 某 化 工厂 生产 一 种 产品 ， 产 率 较 低 。 现 在 希望 通过 实验 设计 ， 找 出 好 的 生产 


严 





~ 开 [ 肌 (或 庆 ), 广 ] (8-15 ) 








方案 ， 以 提高 产 率 。 影 响 产 率 的 因素 见 表 8-9。 
表 8-9 因素 与 水 平 





解 : 根据 影响 因素 及 每 个 因素 的 水 平 数 ， 选 择 斑 正 交 表 安排 实验 ， 得 到 的 实验 结果 见 
表 8-10。 对 表 中 的 数据 进行 分 析 ， 可 得 T、 了 和 尺 。 其 中 ，7 为 各 因素 同一 水 平 的 结果 之 
和 ， 了 为 其 平均 值 ，R 为 极 值 。 








其 实现 的 MATLAB 程序 代码 如 下 ; 


>> clear all; 
data=[1 1151;1227113358;21282;22369;23159;31277;32185;33284]; 
仁 3;c3; 
[rl,c]=size(data); 
二 zeros(fr); 
for k=1 闪 
forj=l:r 
b=0， 
for i=1l:rl 
ifdata(jj) 一 k 。% 水 平 相同 
b=b+data(i,c); 
-end 
end 
t(kj)=b; 
end 
end 
tl1=t/3; 
I=max(tl)-min(t]l); 


b tl r， % 输 出 结果 


运行 程序 ， 输 出 如 下 : 


180 269 136 
210 225 237 
246 ”142 263 


60.0000 ”89.6667 ”45.3333 
70.0000 “75.0000 “79.0000 
82.0000 ”47.3333 ”87.6667 


22.0000 ”42.3333 ”42.3333 


多 元 统计 分 本 





从 结果 中 可 看 出 ， 理 论 上 最 优 方案 为 心 蕊 C, ， 最 大 的 影响 因素 为 4 ， 即 反应 温度 。 
直观 分 析 虽 然 比 较 简便 易 懂 ， 但 不 能 估计 试验 误差 的 大 小 ， 很 难 断 定 因素 的 重要 性 。 为 
了 克服 这 个 缺点 ， 可 采用 方差 分 析 的 方法 。 


>> g={[111222333];[123123123];[123231212]}; 
>> anovan(data(:,c),g)” % 多 因素 方差 分 析 


运行 程序 ， 输 出 如 下 〈 效 果 见 图 8-13 ): 





ans 一 
0.2667 0.7410 0.6427 


了 ge 1 及 -3a7 ROYA 一 | 七 
了 ile dit 羡 aw JTJnsert Tools Doxktoep Windos Help 
malysis of Variance 


oan 5Sq. 


1239 
Constrained (Type 中 Sums of squares 





图 8-13 ”多 因素 效果 图 1 


因为 3 个 因素 的 尸 值 都 大 于 0.05， 不 能 断定 3 个 因素 都 不 显著 ， 而 是 要 剔除 一 个 最 不 显 
著 的 因素 。 在 此 例 中 剔除 妃 ， 然 后 再 作 方差 分 析 。 


>>gl={[111222333]:[123231312]}; 
>> anovan(data(:,4),g1) %% 多 因素 方差 分 析 


运行 程序 ， 输 出 如 下 〈 效 果 见 图 8-14): 


ans 二 
0.0407 0.1302 


从 而 可 确定 4 是 重要 因素 ，C 是 次 要 因素 。 


Figtre 1 再 -37 大 JOY 
站 le Hit 王 ew Jsert Tools Desktop 昌 adow lelp 邱 
Analysis of Variance 
Source Sunm 5a. Xen S9 Przrob>F 


7. 3 
3 到 01302 


Constrained [Type 有 sums of squares 





图 8-14 多 因素 效果 图 2 


【 例 8-8】 在 降低 柴油 机 耗 油 率 的 研究 中 ， 根 据 专业 人 员 的 分 析 ， 影 响 因 素 有 4 个 主 
要 因素 和 水 平 ， 见 表 8-11。 现 每 个 因素 取 两 个 水 平 做 实验 ， 并 且 认 为 因素 4 与 已 之 间 ，4 


概率 与 数理 统计 分 析 


TAORRSSIRO 





与 C 之 间 可 以 存在 交互 作用 。 请 设计 实验 ， 找 出 好 的 因素 搭配 ， 降 低 柴 油 机 的 耗 油 率 。 


表 8-11 因素 水 平 表 





开水 学 













A 喷嘴 器 的 喷嘴 形式 

B 喷 油 条 杆 塞 贞 径 

C 供 油 提 前 角度 33 
D 


配 气相 位 





解 : 在 本 实验 中 共有 4 个 一 水 平 因素 ， 初 步 适 用 屎 (27) 正 交 表 。 
从 尺 (2 ) 正 交 表 的 交互 作用 表 可 设计 表 头 ， 安 排 实验 并 得 出 结果 ， 见 表 8-12。 


表 8-12 ”实验 结果 


co ww 一 


下 
1 1 
2 2 
2 2 
] 1 
1 2 
 ， ] 
2 1 
1 2 





其 实现 的 MATLAB 程序 代码 如 下 ; 


>> clear al]; 

x=[1111111228.6;1112222225.8;1221122230.2;1222211218.0;.… 
2121212220.82122121215.8;2211221228.35:22121 1 2214.8]; 

仁 2; 王 7; 

[rl,c]=size(x); 

基 Zeros(r); 


for k=1: 
forj=1:r 
b=0; 
for 二 1:rl 
ifx(ij) 一 k 。 % 水 平 相同 
b=b+xfic); 
end 
end 
t(kj)=b; 
end 
end 


T =t/4.R=max(U4)-min(t/4) 


元 = = 
225.6500 222.7500 ”224.4250 227.0250 222.3S00 220.5500 ”222.7250 


六 { 


多 元 统计 分 析 





219.9750 222.8750 221.2000 218.6000 223.2750 225.0750 222.9000 


S.6750 0.1250 3.2250 8.4250 0.9250 4.5250 0.1750 


从 结果 中 可 看 出 第 八 号 实验 少 肪 C;Di 效果 最 好 ， 其 中 因素 C 影响 最 大 。 
下 面 进行 方差 分 析 : 





>>g-{[L1112222]:[L11221122][L2121212]:[12211221]}; 
>> anovan(x(:,cjg,[123458])” % 数 据 向 攻 为 方 莽 分 析 的 编码 


运行 程序 ， 输 出 如 下 《效果 见 图 8-15): 


Figure 1 在-a7 ARNOYA 六 站 加 用 站 
Pilae Edit 乓 eew Insert Tools Desktop indow ielp 
六 nailysis of Variance 


Source Som Su oan 5q Prob>F 人 


5654.4117 1051 .6561 
0.031 0.51 
20. 801 333 .51 

141. 951 2317.73 
1 TI 827. 94 
本 0 551 668. 359 
0. 051 


Constrained (Type 川 Sums of Squares 





图 8-15 多 因素 效果 图 1 


ans 一 
0.0196 0.6051 0.0345 0.0132 0.1190 0.0246 


从 方差 分 析 可 断定 因素 最 不 显著 ， 吻 除 有 B 再 作 方 差分 析 。 


>>gl={[L1112222];[L1222211:;[L2121212]:[12122121]:[12211221]}; 
>> anovan(x(:cj,gl) % 将 AXB 和 AxC 作 为 AB、AC 看 待 


运行 程序 ， 输 出 如 下 〈 效 果 见 图 8-16): 


ans 二 
0.0007 0.0022 0.0003 0.0260 0.0011 


FEgure 1: 生理 57 ADD 二 
了 ie Eduit 页 JTJnxert Tools Desktop 旺 ndow jialpy 
Analysis of Variance 


Source Sam Sq LET Woan SQ 了 Prob 
XI 64.41 1 64.411 1392.68 00007 
20.801 20 801 449 16 0 0022 
141. 951 

1.714 


14! 963 3069.43 0.0003 
1.7T11 37 0 026 


1 
1 
1 
40. 951 1 40. 951 8$85. 43 0.0011 
2 


0. 093 
269. 929 7 


Constraned (Type 咱 Sums of Squares 


0. 046 





图 8-16 多 因素 效果 图 2 





从 而 可 判断 出 影响 因素 的 大 小 顺序 为 C>4>D>4xB>4xC ， 最 好 搭配 为 
4BCD。 其 中 ， 马 由 4xB 和 4xcC 的 水 平 搭配 表 求 出 。 


8.5 ”多 元 方差 分 析 





多 元 方差 分 析 的 理论 介绍 





与 一 元 统计 学 中 的 方差 分 析 〈 参 阅 第 6 章 ) 类 似 ， 多 元 样本 也 可 以 进行 方差 分 析 。 两 者 
的 区 别 在 于 ， 一 元 方差 分 析 中 要 分 析 的 指标 是 一 元 随机 变量 ， 而 多 元 方差 分 析 中 要 分 析 的 指 
慰 是 多 元 随机 变量 。 





1) 统计 工具 箱 中 实现 单 因 素 多 元 方差 分 析 的 函数 为 manoval 。 
其 调用 格式 如 下 : 


d=manoval(X,group) 
d=manoval(X,group,alpha) 
[d,p] = manoval(.…) 
[dp,stats] = manoval(…) 


其 中 , X 是 一 个 闫 x 咖 的 数值 矩阵 ， 每 一 行 是 靖 个 变量 的 一 次 观测 ，group 是 组 变量 ， 一 
般 是 一 个 向 量 或 字符 串 数组 ， 每 一 组 的 观测 值 表示 来 自 一 个 总 体 的 一 个 样本 ，alpha 是 显 落 
性 水 半 ; qd 返回 包含 每 组 均值 的 空间 维 数 的 估计 值 ， 如 果 守 0， 则 认为 每 一 组 的 均值 是 同一 
个 味 维 的 多 元 向 量 ， 如 果 性 1， 则 拒绝 上 述 假设 ， 如 果 尼 2， 则 认为 多 元 均值 位 于 7 维 空 间 
内 的 同一 个 平面 上 ， 而 不 是 在 同一 条 直线 上 ;， P 返回 均值 位 于 0 维 、1 维 空间 的 假设 检验 
值 ， 如 果 疡 的 第 i 个 分 量 值 接近 于 0， 则 组 均值 位 于 ;站 -1 维 空间 的 假设 不 成 立 。 

【 例 8-9】 利用 多 元 方差 分 析 检验 不 同 国家 生产 的 汽车 的 4 种 性 能 参数 的 平均 值 是 否 存 
在 差异 。 

其 实现 的 MATLAB 程序 代码 如 下 : 


>> clear al]; 

load carbig 。 % 装 载 MATLAB 自 带 的 数据 
% 多 元 方差 分 析 

% 分 析 数 据 和 矩阵 
X=[MPG,Acceleration,WeighbDisplacement]; 
% 分 组 变量 

group=Origin; 

% 输 出 结果 

[dp]=manoval(X,group) 


运行 程序 ， 输 出 如 下 : 





统计 分 析 





0.0000 
0.0075 


0.1934 
由 于 4 种 性 能 指标 构成 一 组 ， 因 此 组 均值 肯定 在 一 个 4 维 空间 中 。 通 过 多 元 方差 分 析 发 攻 
现 ， 实 际 上 组 均值 位 于 3 维 子 空间 中 ， 这 说 明 4 种 性 能 指标 的 均值 不 尽 相 同 。 

2) 统计 工具 箱 中 实现 分 组 聚 类 的 函数 为 manovacluter。 

其 调用 格 末 如 下 : 


manovacluster(stats) 

manovacluster(stats,method) 

H = manovacluster(stats,method) 
其 中 ，stats 为 进行 多 元 分 析 后 ， 生 成 组 均值 的 树 形 图 ;method 为 指定 的 方法 进行 分 

类 ; 了 为 返回 图 中 直线 的 句柄 向 量 。 

【 例 8-10】 利用 多 元 方差 分 析 检 验 不 同 国家 生产 的 汽车 的 4 种 性 能 参数 的 分 组 聚 类 的 
其 实现 的 MATLAB 程序 代码 如 下 : 

>> ]oad carbig 

X= [MPG Acceleration Weight Displacement]; 

[d,p,stats] = manoval(X,Origin); 

manovacluster(stats) 


运行 程序 ， 效 果 如 图 8-17 所 示 。 
3) 统计 工具 箱 中 实现 均值 或 其 他 估计 的 多 元 比较 检验 的 函数 为 multcompare。 
c=muljtcompare(stats) 
c=multcompare(stats ,displayopt',ctype'estimate ) 
其 中 ，stats 为 结构 中 的 信息 进行 多 元 比较 的 检验 ;， e 为 比较 返回 的 结果 和 矩阵， 
displayopt、 "ctype'、'estimate' 指 定 进行 比较 的 估计 ， 并 指定 临界 值 。 
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图 8-17 分 组 聚 类 效果 
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【 例 8-11】 mnultcompare 函数 示例 。 
其 实现 的 MATLAB 程序 代码 如 下 ; 


>> clear all; 
strength = [82 86 79 83 84 85 86 87 74 82 78 75 76 77 79 79 77 78 82 79]; 
alloy = fst, st，st，st， st st st st 
"all'allall',allyall'all' 
"al2,al2，al2'al2',al2'al27}; 
[p,a,s] = anoval(strength,alloy); 
[cm,hnms] = multcompare(s); 
[nms num2cell(c)] 


运行 程序 ， 输 出 如 下 〈 效 果 见 图 8-18): 


点 击 所 需 的 数组 





一 一 
74 76 78 80 82 84 86 
显示 第 二 组 不 同 的 数 的 效果 


图 8-18 multcompare 效果 图 


ans 二 
st 0 D [036064] [7] [103936] 
al' 0 0 [16064] [5 [8.3936] 
al2 [2] 0D] [5s6280] [2] [1.6280] 


ES 多 元 方差 分 析 的 应 用 示例 分 析 | 


【 例 8-12】 统计 工具 箱 自 带 的 数据 文件 carsmall 是 1970 年 、1976 年 和 1982 年 生产 的 
不 同类 型 汽车 的 性 能 参数 测试 数据 。 下 面 通 过 多 元 方差 分 析 检验 汽车 的 性 能 参数 是 否 随 时 间 
发 生 了 改变 。 

其 实现 的 MATLAB 程序 代码 如 下 : 


>> clear all; 

load carsmall ”% 装 载 MATLAB 自 带 的 数据 
whos ”%% 显 示 数 据 包含 的 内 容 

% 显 示 变 量 

x=[MPG,Horsepower Displacement Weight]; 
gplotmatrix(x,[,Model_ Year,[],+xo); 
[d,p]=manvoal(x,Model Year) % 多 元 方差 分 析 


运行 程序 ， 输 出 如 下 ; 








ER 





原始 数据 包含 的 内 容 有 
Name Size Bytes Class Attributes 
Acceleration 100x1 800 double 
Cylinders 100x1 800 doubie 
Displacement 100x1 800 double 
Horsepower 100x1 800 double 
MPG 100xl 800 double 
Model 100x36 7200 char 
Model_ Year 100x1 800 double 
Origin 100x7 1400 char 
Weight 100x1 800 double 


4 种 性 能 参数 变量 的 分 组 显示 如 图 8-19 所 示 。 








图 8-19 4 种 性 能 参数 变量 的 分 组 显示 


由 图 8-19 似乎 可 以 看 出 ， 不 同年 份 生产 的 汽车 的 性 能 参数 有 明显 差别 ， 但 经 过 多 元 方 
差分 析 后 的 结果 为 : 
d=- 2 
p= 1.0e-006* 
0 
0.1141 


即 计算 得 到 组 均值 的 维 数 为 2， 而 不 是 3。 这 说 明 其 中 两 年 生产 的 汽车 的 性 能 与 第 三 年 
生产 的 汽车 有 明显 差别 。 


8.6 ”判别 分 析 
8.6.1 


1. 判别 分 析 的 基本 思想 及 意义 
在 科学 研究 中 ， 经 常会 遇 到 这 样 的 问题 : 某 研究 对 象 以 某 种 方式 〈 如 先前 的 结果 或 经 
验 ) 划分 成 若干 类 型 ， 而 每 一 类 型 都 是 用 一 些 指标 蕊 = (和 来 表征 ， 即 不 同类 型 





的 克 的 观测 值 在 某 种 意义 上 有 一 定 的 差异 ， 当 得 到 一 个 新 样品 《或 个 体 ) 的 关于 指标 万 的 
观测 值 时 ， 要 判断 该 样品 《或 个 体 ) 属于 已 知 类 型 中 的 哪 一 个 ， 这 类 问题 通常 称 为 判别 分 
析 。 也 就 是 说 ， 判 别 分 析 是 根据 所 研究 个 体 的 某 些 指标 的 观测 值 来 推断 该 个 体 所 属 类 型 的 一 
种 统计 方法 。 

判别 分 析 的 应 用 十 分 广泛 。 例 如 ， 在 工业 生产 中 ， 要 根据 某 种 产品 的 一 些 非 做 坏 测试 性 
测试 指标 判别 产品 的 质量 等 级 ， 在 经 济 分 析 中 ， 根 据 人 均 国 民 收 入 、 人 均 农业 产值 、 人 均 消 
费 水 平等 指标 判断 一 个 国家 的 经 济 发 展 程度 ， 在 考古 研究 中 ， 根 据 挖 气 的 古人 头盖骨 的 容 
和 量 、 周 长 等 判断 此 人 的 性 别 ， 在 地 质 勘 探 中 ， 根 据 某 地 的 地 质 结构 、 化 探 和 物探 等 各 项 指标 
来 判断 该 地 的 矿 化 类 型 ， 在 医学 诊断 中 ， 医 生 要 根据 化 验 结果 和 病情 征兆 判断 病人 患 了 哪 一 
种 疾病 ， 等 等 。 值 得 注意 的 是 ， 作 为 一 种 统计 方法 ， 判 别 分 析 所 处 理 的 问题 一 般 都 是 机 理 不 
其 清楚 或 者 基本 不 了 解 的 复杂 问题 ， 如 果 样 品 的 某 些 观测 指标 和 其 所 属 类 型 有 必然 的 逻辑 关 
系 ， 也 就 没有 必要 应 用 判别 分 析 方法 了 。 

用 统计 的 语言 来 描述 判别 分 析 ， 就 是 已 知 有 有 g 个 总 体 Gi,G，…,G。。 每 个 总 体 G 可 认为 
是 属于 G 的 指标 七 =( 人 (8 和， 入) 取 值 的 全 体 ， 它 们 的 分 布 函数 用 00,C0…, 居 (9 均 为 忆 
维 函 数 ， 对 于 任 一 给 定 的 新 样品 关于 指标 亏 的 观测 值 x= (xxo) ， 要 判断 该 样品 应 属 
于 g 个 总 体 中 的 哪 一 个 。 

在 实际 应 用 中 ， 通 常 由 取 自 各 总 体 的 关于 指标 尖 的 样本 作为 该 总 体 的 代表 ， 该 样本 称 
为 训练 样本 ， 判 别 分 析 即 取 训 练 样本 中 各 总 体 的 信息 以 构造 一 定 的 准则 来 决定 新 样品 的 归属 
问题 。 训 练 样 本 往往 是 历史 上 对 某 现象 长 期 观察 或 者 使 用 晶 贵 的 实验 手段 得 到 的 ， 因 此 对 当 
前 的 新 样品 ， 自 然 希望 将 其 指标 值 中 的 信息 同 各 总 体 训练 样本 中 的 信息 作 比 较 ， 以 便 在 一 定 
程度 上 判定 新 样品 的 所 属 类 型 。 概 括 起 来 ， 下 述 几 方面 体现 了 判别 分 析 的 重要 意义 。 

第 一 ， 为 未 来 的 决策 和 行动 提供 参考 。 例 如 ， 以 前 对 一 些 公司 在 破产 前 两 年 观测 到 某 些 
重要 的 金融 指标 值 。 现 在 ， 要 根据 另 一 个 同类 型 公司 的 这 些 指标 的 观测 值 ， 预 测 该 公司 两 年 
后 是 否 濒临 破产 的 危险 ， 这 便 是 一 种 判别 ， 其 结论 可 以 帮助 该 公司 决策 人 员 及 早 采取 措施 ， 
防止 将 来 可 能 破产 的 结局 。 

第 二 ， 避 免 产 品 的 破坏 。 例 如 ， 一 只 灯泡 的 寿命 只 有 将 它 用 坏 时 才能 得 知 ， 一 种 材料 的 
强度 只 有 将 它 压 坏 时 才能 获得 。 一 般 情 况 下 ， 希 望 根据 一 些 非 破坏 性 的 测量 指标 ， 便 可 将 产 
品 分 出 质量 等 级 ， 这 也 要 用 到 判别 分 析 。 

第 三 ， 减 少 获 得 直接 分 类 信息 的 昂贵 代价 。 例 如 ， 在 医学 判断 中 ， 一 些 疾病 可 用 代价 晶 
贵 的 化 验 或 手术 得 到 确诊 ， 但 通常 人 们 往往 更 希望 通过 便于 观测 〈 从 而 也 可 能 导致 错误 ) 的 
一 些 外 部 症状 来 诊断 ， 以 避免 过 大 的 开支 和 对 患者 不 必要 的 损伤 。 

第 四 ， 在 直接 分 类 信息 不 能 获得 的 情况 下 可 用 判别 分 析 。 例 如 ， 要 判断 某 署名 的 文学 作 
申 是 否 出 自 某 已 故 作家 之 手 ， 很 显然 ， 不 能 直接 去 问 他 。 这 时 ， 可 以 用 这 位 已 故 作家 的 署名 
作品 的 写作 特点 《〈 用 一 些 变量 描述 ) 作为 训练 样本 ， 用 判别 分 析 方法 在 一 定 程度 上 判定 该 未 
着 名 作品 是 否 由 该 作家 所 作 。 

从 以 上 例子 中 也 可 以 清楚 地 看 出 ， 如 果 不 是 利用 直接 明确 的 分 类 信息 来 判断 某 新 样本 的 
归属 问题 ， 难 免 会 出 现 误 判 的 情况 。 判 别 分 析 的 任务 是 根据 训练 样本 所 提供 的 信息 ， 建 立 在 
某 种 意义 下 最 优 〈 如 误 判 概率 最 小 ， 或 误 判 损 失 最 小 等 ) 的 准则 来 判定 一 个 新 样品 属于 哪 一 
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个 总 体 。 这 里 主要 介绍 距离 判别 准则 。 

下 面 ， 首 先 介 绍 多 元 正 态 总 体 的 参数 估计 问题 。 

2. 多 元 正 态 分 布 参数 的 估计 

在 工程 实际 中 ， 多 元 正 态 分 布 WA, 二 ) 的 参数 4 和 守 常常 是 未 知 的 ， 需 要 通过 样本 来 估 
计 。 

设 随 机 向 量 X 服 从 P 维 正 态 分 布 NUp,Z) ， 忆 ,六艺 为 来 自卫 的 样本 (> P) ， 在 此 
每 个 着 (人 =12…… 站 都 是 P 维 随机 向 量 ， 令 


r_ 1 莉 
机 (8-16) 
S = 0 -)CK 一 和 1 (8-17) 


称 届 为 样本 均值 向 量 ， 5 和 5 的 观察 值 G=12,…,m， 则 元 与 
S 的 观察 值 分 别 为 


2 ， 的 一 (一 ) 


定理 8-1 戎 略为 来 自 总 体 天 的 样本 ， 光 ~ N(Z) ， 工 >0， 则 


rm 


) 束 与 立 分 别 是 丸和 屏 的 最 大 似 然 估计 量 ， 即 户 = 素 ， 衬 = 。 刀 和 对 的 最 大 似 然 估 
计 值 分 别 为 2 了 人 2 -7F)(Ox -PT。 


27 过 与 人 分 别 是 w& 和 革 的 一 臻 最 小 方差 无 偏 估 计 ， 而 坊 人 生 分 别 是 人 和 开 的 最 小 
方差 无 偏 估计 值 。 

定理 8-2 若 癌 ,2X… 和 为 取 自己 维 正 态 总 体 N,(Ap, 二) 的 样本 ， 匹 ,S 分 别 由 式 〈8-16) 
和 式 〈8-17) 确定 ， 则 

1) 台 服 从 正 态 分 布 No [Ad 。 

2) 存在 相互 独立 的 忆 维 正 态 变量 也 , 存 ，, ， 世 ~ N(0Z) ，i=12…,m-1， 使 S 可 
表示 为 

S= 》7Z (8-18) 
3) 区 与 8$ 相 互 独立 。 


“距离 ”是 最 直观 的 一 个 概念 ， 多 元 分 析 中 的 许多 方法 都 可 以 用 距离 的 观点 来 扒 
导 。 通 常 是 首先 定义 样本 空间 中 两 点 之 间 的 距离 ， 然 后 定义 一 个 点 到 一 个 总 体 的 距离 
《一般 定 义 为 这 个 点 到 这 个 总 体 的 均值 点 的 距离 )。 如 何 定义 样本 空间 中 两 点 之 间 的 距离 











呢 ? 在 维 空间 中 ， 欧 氏 距 离 是 由 两 点 间 对 应 坐标 值 之 差 的 平方 和 再 开 方 ， 即 忆 y 两 点 
间 的 距离 平方 为 

人 (Ce 人 =(00 一 区 + 一 攻关 二 0 一 芒 关 = 一切 (一 亿 
但 在 判别 分 析 中 ， 直 接 采 用 欧 氏 距离 不 太 合适 ， 其 诛 因 是 没有 考虑 总 体 分 布 的 分 散 性 信息 。 
为 了 克服 这 一 不 足 ， 印 度 统 计 学 家 马 哈 拉 诺 必 斯 (Mahalanobis) 于 1936 年 提出 了 “ 马 氏 距 
离 ”。 什 么 是 “ 马 氏 距离 ”? 与 欧 氏 距离 相 比 ， 它 有 什么 优点 呢 ? 下 面 用 一 个 简单 的 例子 来 
说 明 这 两 种 距离 概念 的 差别 。 


设 有 两 个 正 态 总 体 G: Na) 和 G@G : NA,a)， 今 丰 一 个 样品 ， 其 值 在 4 点 ， 如 
图 8-20 所 示 。 试 问 4 点 距离 哪个 总 体 近 …: 些 呢 ? 没 G : NI(5D ，G :， N (5,22) ， 样 品 
4(9,0) 。 在 图 8-20 中 ， 两 条 止 态 分 布 党 度 曲线 都 绘制 了 3c 。 

从 欧 氏 距离 来 看 ，4 点 与 总 体 G| 的 距离 半 方 为 (4- 5 ， 显 然 小 于 4 点 与 总 体 @, 的 距离 
平方 (4-15) ， 亦 即 4 点 离 G 要 近 -: 些 。 从 概率 角度 来 看 ，4 在 4 =5 右 侧 约 4cl 处 ，4 在 
如 =15 的 左 侧 约 3a, 处 ， 根 据 “3c 定律 ” 4 点 不 能 属于 G ， 而 应 属 二 G, 。 这 时 ， 若 用 各 
自 的 方差 把 “距离 ”标准 化 以 后 ， 即 有 

(4-A) -16，(4-A) 9 
ao 03 


0.4 
03 
02 
01 
和 5 10 15 20 25 


图 8-20 两 条 正 态 分 布 密度 曲线 

从 而 ， 可 判断 4 属于 C@ 。 推 广 到 多 维 情况 ， 就 是 用 协 方 差 和 矩阵 把 “距离 ”标准 化 后 化 

为 无 量 纲 的 量 来 作为 样本 空间 中 两 点 之 间 的 距离 ， 即 定义 
d (cy)=(r-D)T (xy 
这 就 是 马 氏 距离 。 

欧 氏 距离 还 有 另 一 个 缺点 ， 就 是 各 个 分 基 为 不 同性 质 的 量 时 ,“ 距 离 ” 的 大 小 与 单位 有 
关 。 例 如 ， 点 (xz) 的 第 一 个 分 量 国 表示 重量 (以 kg 为 单位 )， 第 二 个 分 量 交 表示 长 度 
(以 cm 为 单位 )， 今 有 4 个 点 4(0,5) ，BU0,0) ，C(0) ，D(0,10)， 则 4 与 妃 ，C 与 万 之 间 
的 欧 氏 距离 的 平方 和 为 

14 =102+52=125，|CO=1+102=101 
因此 4B 要 比 CD 长。 

如 果 将 点 的 第 二 个 分 量 的 单位 改 为 mm， 那 么 ，4 点 的 坐标 就 变 为 (0,50) ， 刀 点 的 

坐标 就 变 为 (0,100) ， 忠 、C 两 点 的 坐标 不 变 ， 这 时 4 与 巨 ，C 与 万 之 间 的 欧 氏 距离 的 平 








方 和 为 
148 =102 +502 =2600，|CD| =P+1002 =10001 

于 是 CD 反而 比 4B8 长 了 ! 这 显然 不 够 合理 。 若 用 马 氏 距离 ， 则 与 各 量 所 用 单位 完全 无 
关 ， 就 不 会 出 现 这 种 矛盾 现象 了 。 

下 面 给 出 同一 总 体 下 的 两 点 间 的 距离 ， 一 点 到 一 总 体 间 的 距离 ， 以 及 两 总 体 间距 离 的 马 
氏 定 义 。 

定义 8-1 设 xy 是 来 自 总 体 均 值 向 量 为 w， 协 方差 矩阵 为 二 的 总 体 的 两 个 样品 ， 则 
2%》 两 点 之 间 的 马 氏 平方 距离 定义 为 





d (=(x-y) Cr- 吃 (8-19) 
定义 Xx 与 总 体 G 的 马 氏 平方 距离 为 
di(0G)=(x-ATZTOx-O) (8-20) 


这 伴 ，x ， ?两 点 之 间 的 马 氏 距离 为 


do 人 =VGC-J 人 (xD (8-21) 
doxG)=VJx-AOTZTO- 7 (8-22) 


定义 8-2 ” 设 有 两 个 总 体 G 和 G; ， 其 均值 向 量 分 别 是 Am 和 岂 ，G 和 G@, 的 协 方差 矩阵 
相等 ， 缘 为 工 ， 则 总 体 G; 和 @, 的 马 氏 平方 距离 为 

d2(G,O)=(AN 一 /0) 工 (4 一 包 ) 〈8-23 ) 

可 以 证 明 ， 马 氏 距 离 符合 通常 距离 的 定义 ， 即 具有 非 负 性 、 自 反 性 且 满 足 三 角 不 等 式 。 


事实 上 ， 
d(cg8)=Vdz(c 人 =VJC-yJTIx-D 
LT 
=VJGax-yTrzZ “22(x 一 切 
_ 业 
=\ 儿 2 -yir(zztx-I>0 
仅 当 x=y 时 ，d(x, 站 =0。 


而 自 反 性 : d(x,y) = qdOx) 是 很 明显 的 。 
下 面 求证 三 角 不 等 式 ， 设 xz 为 总 体 G 的 样品 ， 为 证 明 
d(xz) 和 dxy)+d(z) 


Xx 至 总 体 CG 的 马 氏 距离 为 


人 省 


w= Zi(z-a=Z2e-y+y7-3= 荆 Er- 放生 
由 Minkowski 不 等 式 ， 得 
doz]=VerwsVum+yVory=dGoy)+dOna 
当 守 为 单位 矩阵 时 ， 马 氏 距 离 就 化 为 通常 的 欧 氏 距离 。 
有 了 马 氏 距离 的 概念 ， 就 可 以 用 “距离 ”这 个 尺度 来 判别 样品 的 归属 了 。 











多 图 像 平 均 法 | 





1) 统计 工具 箱 中 实现 线性 判别 分 析 的 函数 为 classify。 
其 调用 格式 如 下 : 


class=classify(sample,traning,group) 


其 中 ，sample 指定 数据 的 每 一 行 到 训练 集 traning 指定 的 一 个 类 中 ;，group 指明 训练 集中 
的 每 一 行 属于 哪 一 个 类 ;class， 它 的 每 一 个 元 素 指定 sample 中 对 应 元 素 的 分 类 。 
2) 统计 工具 箱 中 实现 计算 马 氏 距离 的 函数 为 mahal。 


d=mahal(Y, X) 


其 中 , X 为 样本 至 Y 中 每 一 个 点 〈 行 ) 的 马 氏 距离 。 
【 例 8-13】 以 1g(WEC% ) 作 为 活性 高 低 的 界限 ， 测 定 了 26 个 含 硫 芳香 族 化 合 物 对 发 光 
菌 的 毒性 数据 。 分 别 计算 了 这 些 化 合 物 的 lg K。。、Hammett 电荷 效应 常数 c ， 并 测定 了 水 解 
速度 常数 4 〈 见 表 8-13)。 试 根据 活性 类 别 〈 两 类 )、 变 量 lg Ko 、c 和 lg 所 取 的 数据 ， 对 
3 个 未 知 活性 同系 物 的 活性 进行 判别 。 
表 8-13 ”26 个 化 合 物 的 结构 参数 与 判别 分 析 结果 
| avsco [| =” | ak 





化 合 物 编号 与 类 别 









第 I 类 
{ 低 活性 ) 


oo DawN 一 
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clear all; 

load mydata 。”% 保 存 以 上 数据 为 mydata.mat 文件 

training=[xl x2 x3 x4] 
group=[11111111111112222222222222]'; 
sample=[1.33 0.81 2.29 1.71;1.72 1.59 3.35 1.46;1.5S 1.71 3.00 1.17]; 
class=classify(sample,training,group)' 


运行 程序 ， 输 出 如 下 : 


class=1 2 2 


即 3 个 未 知 化 合 物 的 活性 类 型 分 别 属 于 低 、 高 、 识 ， 与 实际 结果 完全 一 样 。 


8.7 ”实验 设计 分 析 








化 学 实验 设计 和 优化 是 数理 统计 方法 在 化 学 中 应 用 比较 成 熟 的 一 个 领域 。 

实验 设计 是 指 在 实验 各 影响 因素 的 取 值 范围 内 ， 最 有 效 地 选择 实验 点 ， 科 学 地 安排 实 
验 ， 进 而 通过 数据 分 析 得 到 指标 ， 取 得 最 优 值 的 条 件 的 一 种 方法 ， 即 研究 如 何 设 计 实 验 条 件 
使 指标 获得 最 优 值 。 一 个 良好 的 实验 设计 应 能 以 最 小 的 实验 工作 回答 所 有 有 研究 对 象 的 问 
题 。MATILAB 中 介绍 了 完全 析 因 设计 、 不 完全 析 因 设计 和 D- 优 化 设计 3 种 实验 设计 方法 。 

(1) 完全 析 因 设计 

为 了 在 几 个 水 平 上 研究 几 个 因素 而 设计 的 实验 称 为 析 因 实 验 设计 。 它 不 仅 要 研究 各 因素 
水 平 对 指标 的 影响 ， 而 且 还 强调 分 析 诸 因素 对 指标 的 作用 。 它 按 析 因 设 计 表 设计 方案 ， 通 过 
分 析 实 验 指标 的 变化 决定 各 因素 主 效应 和 各 因素 之 间 的 实验 方法 。 

(2) 不 完全 析 因 分 析 

完全 析 因 设计 的 困难 之 一 是 当 变量 增加 时 ， 进 行 析 因 设 计 的 组 合 将 呈 指 数 增长 〈2" )。 
因此 完全 析 因 分 析 一 般 只 适合 于 因素 和 水 平 较 少 的 实验 。 当 有 较 多 因素 及 水 平 的 析 因 分 析 
时 ， 可 以 采用 不 完全 析 因 试验 设计 。 

不 完全 析 因 分 析 可 以 通过 较 少 的 试验 研究 每 个 变量 的 主 效应 ， 可 以 大 大 减少 实验 次 数 。 
例如 ， 当 变量 为 7 时 ， 完 全 析 因 实验 次 数 将 达到 128 次 ， 而 不 完全 析 因 分 析 则 只 要 8 次 。 

(3) D- 优 化 设计 

不 完全 析 因 设计 和 熟知 的 正 交 实 验 ， 由 于 具有 “均匀 分 散 、 整 齐 可 比 ” 的 特点 ， 可 以 用 
较 少 的 实验 获得 各 因素 及 其 相互 之 间作 用 的 丰富 信息 。 但 是 ， 为 了 达到 “整齐 可 比 ”的 目 
的 ， 往 往 要 做 较 多 的 实验 〈 至 少 为 水 平 数 的 平方 )。 若 各 因素 取 5 个 水 平 ， 则 至 少 要 做 
$ = 25 次 试验 ， 这 在 实际 应 用 中 较 难 实现 。 

为 此 ， 必 须 寻 找 一 种 适用 于 多 因素 水 平 而 实验 次 数 更 少 的 实验 设计 方案 ，20 世纪 70 年 
代 出 现 的 D- 优 化 设计 便 是 其 中 的 一 种 。D- 优 化 设计 使 Fisher 信息 矩阵 XIX 的 行列 式 最 大 
化 ， 该 矩阵 与 参数 的 协 方差 矩阵 的 逆 成 比例 ， 所 以 det( XTX ) 等 价 于 使 参数 的 协 方 差 矩 阵 的 
行列 式 最 大 化 。 











统计 工具 箱 对 以 上 3 种 实验 设计 方法 分 别提 供 了 相关 的 函数 。 
(1) 完全 析 因 设计 相关 函数 

CD fpn 函数 。 

fPn 函数 的 功能 : 二 水 平 完 全 析 因 分 析 。 

其 调用 格式 如 下 : 


X=ff2n 

其 中 ，X=ffp2n: 创建 一 个 二 水 平 的 完全 析 因 设计 X。 

@) fullfact 函数 。 

fullfact 函数 的 功能 : 完全 析 因 试验 设计 。 

其 调用 格式 如 下 : 

design=fullfact(levels) 

其 中 ，design=fullfact(levels): 给 定 因子 设置 ， 进 行 完 全 析 因 设计 。levels 向 量 中 的 每 一 
个 元 素 指定 design 对 应 列 中 唯一 元 素 的 个 数 。 

(2) 不 完全 析 因 分 析 相 关 函 数 fracfact 

fracfact 函数 的 功能 : 生成 源 于 生成 器 的 不 完全 析 因 分 析 。 

其 调用 格式 如 下 : 

x=fracfact(gen'") 

其 中 ，x=fracfact('gen): 根据 生成 器 字符 串 'gen' 指 定 的 内 容 生成 不 完全 析 因 设计 ， 并 返 
回 设 计 点 的 矩阵 x。 

(3) D- 优 化 设计 相关 函 数 

GD cordexch 函数 。 

cordexch 函数 的 功能 : 协同 交换 算法 。 

其 调用 格式 如 下 : 

settings=cordexch(nfactors, number) 
[settings,x]=cordexch(nfactors, number) 
[settings,x]=cordexch(nfactors, number,model) 

其 中 ，settings=cordexch(nfactors，number): 生成 因素 设置 矩阵 settings，number 为 实验 
次 数 ，[settings,x]=cordexch(nfactors, number): 生成 相关 的 设计 和 拢 阵 x; [settings,x]=cordexch 
(nfactors，number'model]): 为 了 拟 合 一 个 指定 的 回归 模型 进行 设计 ， 和 输入 参数 model' 可 以 是 
'interaction'、'quadratic' 或 purequadratic 。 

@) daugment 函数 。 

daugment 函数 的 功能 : 试验 设计 的 D- 优 化 扩展 。 


settings=daugment(startdes, number) 
settings=daugment(startdes, number, modej) 
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其 中 ，settings=daugment(startdes，numbenD): 扩展 一 个 初始 实验 设计 startdes， 并 进行 半 次 新 
的 测试 ，settings=daugment(startdes, number model); 输入 参数 model 控 制 回归 模型 的 阶 次 。 
人 @@ dcovary 函数 。 
dcovary 函数 的 功能 :用 指定 的 协 方差 进行 D- 优 化 设计 。 >) 
其 调用 格式 如 下 : 


settings=dcovary(factors, covariates) 
settings=dcovary(factors, covariates, model) 


其 中 ，settings=dcovary(factors，covariates): 为 每 一 次 运行 创建 一 个 有 固定 协 变量 约束 的 
D- 优 化 设计 ;settings=dcovary(factors, covariates, model): 输入 参数 model 控 制 回 归 模 型 的 阶 
次 。 默 认 时 ， 为 一 线性 模型 。 

由 hadamard 函数 。 

hadamard 函数 的 功能 : Hadamard 和 矩阵。 

其 调用 格式 如 下 : 


H=hadamard(n) 


其 中 ，H=hadamard(n): 返回 阶 次 为 于 的 Hadamard 窍 阵 。 
G@) rowexch 函数 。 
rowexch 函数 的 功能 ;试验 设计 的 D- 优 化 设计 - 行 交 换算 法 。 
其 调用 格式 如 下 : 
settings=rowexch(nfactors, m) 


[settings, x]=rowexch(nfactors,n) 
fsettings, x]=rowexch(nfactors,n model) 


其 中 ，settings=rowexch(nfactors, n): 生成 因子 设置 矩阵 settings， 用 带 常数 项 的 线性 累加 
模型 进行 D- 优 化 设计 ;， [settings，x]=rowexch(nfactorsn): 生成 相关 设计 和 矩阵 ; [settings， 
x]=rowexch(nfactors,n，'model): 为 拟 合 指定 的 回归 模型 生成 设计 。 输 入 参数 model' 控 制 回 归 
模型 的 阶 次 。 


实验 设计 分 析 的 应 用 示例 分 析 
【 例 8-14】 请 设计 一 个 完全 析 因 分 析 和 矩阵 设置 ， 其 中 有 4、B 和 C 3 个 因素 ，4 有 两 个 


水 平 ， 而 B、C 有 3 个 水 平 。 
其 实现 的 MATLAB 程序 代码 如 下 ;: 


>> fullfact([2 3 3]) 
ans 王 | 
2 





mm 扫 m 人 一 
一 ww 一 一 
bN 亚 王 亚 m mm 一 








iD 一 昌 一 是 一 有 一 中 一 避 
由 有 一 一 mm 一 
DDN ND 


此 矩阵 即 为 实验 设计 设置 ， 如 第 六 行 表示 安排 4 因素 的 第 二 个 水 平 、B 因素 的 第 三 个 水 平 、 
C 因素 的 第 一 个 水 平 作为 实验 点 。 很 明显 ， 随 着 因素 及 水 平 数 的 增多 ， 实 验 次 数 迅速 增加 。 
【 例 8-15】 考察 反应 ; 4 一 全 B+C， 研究 4 的 浓度 及 反应 温度 对 产 率 的 影响 。 请 
以 D- 优 化 设计 方法 分 析 各 因素 的 主 效应 和 交互 效应 。 
解 : 首先 根据 化 学 经 验 确定 因素 的 水 平 ， 现 确定 4 的 浓度 和 反应 温度 各 有 两 个 水 平 。 
考虑 一 输入 的 交互 模型 ， 使 用 行 交 换算 法 进行 实验 设计 ， 该 模型 的 形式 为 
=ao+axi +aoxo +xo +e( 误 差 ) 


假设 希望 D- 优 化 设计 通过 4 次 实验 来 拟 合 模型 ， 则 


>> [settings,x]=rowexch(2,4,' 让 
Settings 三 
-1 1 
1 -] 
-1 -] 
1 ] 


共 
站 


] 
] 
] -] -1 ] 
1 


据 此 ， 设 计 实验 点 ， 得 到 的 实验 结果 见 表 8-14。 


表 8-14 ”二 因素 二 水 平 D- 优 化 的 设计 表 


实验 序 吕 





表 中 第 二 列 是 为 了 分 析 各 个 因素 对 指标 的 影响 ， 都 以 高 水 平 表示 ， 第 三 、 四 列 为 4、 有 
两 因素 的 实验 点 ; 第 四 列 为 它们 之 间 的 交互 作用 。 
根据 D- 优 化 设计 七 矩阵 和 实验 结果 矩阵 ， 可 得 到 系数 和 矩阵 4 
4=x  ， 了 =meXTe。y 
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对 于 本 题 ， 有 


>> x=[1-1-11;11-1-L1-11-11111]; 
>> y=[80.4 72.4 94.4 90.6] ; 
> A=1/4*X'*y 
>> A' 
ans = 
84.4500 “” -2.9500 ”8.0500 1.0500 


即 4 的 主 效应 为 -2.9500， 是 负 效 应 且 值 不 大 ， 对 指标 的 影响 小 : B 的 主 效应 为 
8.0500， 影 响 最 大 且 为 正 效应 ;交互 作用 为 1.0500， 影 响 较 小 ， 可 以 认为 基本 上 不 存在 交互 
作用 。 当 然 ， 也 可 以 进行 方差 分 析 以 求 出 各 影响 因素 。 

【 例 8-16】 影响 分 光 光 度 法 测定 的 因素 有 pH 值 、 反 应 物 、 显 色 剂 及 其 他 掩蔽 剂 〈 或 强度 
调节 剂 ) 浓度 、 反 应 温度 等 因素 。 请 设计 一 个 实验 方案 ， 以 最 少 的 实验 次 数 达到 最 佳 的 结果 。 

解 : 这 是 一 个 多 因素 、 多 水 平 的 实验 ， 不 适合 采用 完全 析 因 实验 设计 方法 。 为 了 尽量 减 
少 实验 次 数 ， 现 采用 D- 优 化 设计 。 

假设 本 例 中 有 关 个 因素 ， 至 少 做 n 次 试验 。 先 不 考虑 3 次 项 和 3 因素 间 的 交互 作用 ， 
此 时 ， 指 标 函 数 的 回归 方程 为 





许 卫 隆 
全 1 


i=1 J/=1 


以 矩阵 形式 表示 ， 即 为 
急 ] 2 2 7 am 
J]2 _|1 XXX22 or|al 
Jr 1 Xml Xmn2 nrT 

其 中 ， 了 =m+0.Sma(m +H 。 

应 用 多 元 线性 回归 分 析 技 术 ， 则 妇 =(XIXJ-IXTY ,m>7T+l 


本 例 中 疾 =4 (PH、T 、 反 应 物 和 显 色 剂 浓度 )， 所 以 了 = 14， 则 为 了 满足 最 小 二 乘 的 条 
件 ， 至 少 需要 做 15 次 左右 的 实验 。 此 时 ， 利 用 rowexch 函数 便 可 进行 D- 优 化 设计 。 


>> [settings,X]=rowexch(4,15,i 


调整 实验 次 数 ， 可 得 到 不 同 的 实验 设置 。 根 据 rowexch 函数 计算 结果 ， 可 得 出 : 
11 和 2 乞 13 。 即 在 考虑 交互 作用 时 ， 至 少 需 做 11 次 实验 ， 各 实验 的 输入 如 下 ; 


>> [settings,x]=rowexch(4,11,i 
settings 三 
-1 -1 -1 
] -1 
1 1 
1 -1 
1 -] -1 1 
1 
1 


一 
下 上 
pm 


] -1 -1 
-1 ] 1 





尺 德 阵 则 是 拟 合 上 述 回归 方程 的 设计 和 矩阵。 根据 settings 和 抵 阵 安排 实验 点 ， 得 到 指标 和 矩 
阵 Z ， 则 可 以 根据 多 元 回归 模型 〈 或 方差 分 析 ) 求 出 回归 方程 ， 从 而 找 出 主要 影响 因素 和 最 
佳 实验 点 。 

如 果 不 考 虑 交互 作用 ， 则 回归 模型 为 


州 站 

2 2 

卫 = 0G0 十 》 ax 十 汪 - 
这 三 ! 


则 了 = 六 + 玉 =8 ， 此 时 只 需 做 9 次 左右 的 实验 ， 同 样 利用 rowexch 函数 或 cordexch 函数 进行 


>> [settings,X]=cordexch(4,9,p) 
settings 二 
-| 0 1 1 
1 1 1 1 
0 1 -] -1 
] 0 0 -| 
0 0 1 0 
1 -1 -| 0 
-] -1] ] -1 
0 -1 0 1 
-1 1 0 


调整 实验 次 数 ， 比 较 cordexch 函数 的 计算 结果 ， 可 知 此 时 最 少 应 做 9 次 实验 ， 各 次 实验 
安排 见 settings 矩阵 。 

【 例 8-17】 试用 不 完全 析 因 设计 研究 5 个 因子 的 效应 。 

解 : 对 于 5 个 因子 的 研究 ， 如 进行 完全 析 因 设计 ， 需 要 32 次 实验 。 如 果 假 设 没有 3 因 
子 的 交互 效应 ， 则 通过 生成 器 的 智能 选择 ， 发 现 只 要 经 过 8 次 实验 就 可 以 估计 这 5 个 效应 。 

其 实现 的 MATLAB 程序 代码 如 下 : 


>> [xc]=fracfactab cabac); 


>> c(1:7,) 

ans = 
Term' "Generator "Confounding 
XT 3 XI 二 X4+X6' 
X2' b' X2 二 X5S' 
3 避 X3TX7 
X4' "aa 1] 十 X4+X6' 
XS9 b' "X2 二 X9' 
X6' aa XI1+X4+X6' 


这 里 所 有 的 主 效应 由 一 个 或 多 个 一 因子 交互 组 成 ，8 个 实验 的 输入 由 于 矩阵 设计 。 
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第 9 章 隐 马 尔 可 夫 模 型 及 统计 电 
工具 箱 的 示范 程序 


9.1 隐 马 尔 可 夫 模 型 


隐 马 尔 可 夫 模 型 (Hidden Markov Model，HMM) 是 马尔 可 夫 链 的 一 种 。 它 的 状态 不 能 
直接 观察 到 ， 但 能 通过 观测 向 量 序列 观察 到 每 个 观测 向 量 都 是 通过 某 些 概率 密度 分 布 表 现 为 
各 种 状态 ， 每 一 个 观测 向 量 由 一 个 具有 响应 概率 密度 分 布 的 状态 序列 产生 。 所 以 ， 隐 马尔 可 
夫 模 型 是 一 个 双重 随机 过 程 一 二 具有 一 定 状 态 数 的 隐 马 尔 可 夫 链 和 显示 随机 函数 集 。 自 20 
世纪 80 年 代 以 来 ，HMM 被 应 用 于 语音 识别 ， 取 得 重大 成 功 。 到 了 20 世纪 90 年 代 ，HMM 
还 被 引入 计算 机 文字 识别 和 移动 通信 核心 技术 “多 用 户 的 检测 ”。 近 年 来 ，HMM 在 后 物 信 息 
科学 、 故 障 诊 断 等 领域 也 开始 得 到 应 用 。 

1. 基本 概念 

假设 某 个 系统 由 5 个 不 同 的 状态 (Si ,8,S;,S4S:) 组 成 ， 如 网 9-1 所 未。 








图 9-1 5 个 不 同 状态 的 马尔 可 夫 链 


显然 这 是 一 个 离散 的 马尔 可 夫 过 程 ， 记 状态 变化 的 时 间 常 数 为 = 2,…: 时 刻 的 实际 状 
态 为 mg 。 为 了 描述 上 述 系统 的 全 部 概率 ， 一 般 来 说 ， 需 要 知道 当前 时 刻 和 以 前 时 刻 的 状态 。 
特别 地 ， 对 一 阶 马 尔 可 夫 链 来 说 ， 其 概率 描述 可 以 简化 为 

Pt =S19=3g=So =Pt = 19- = 《9-1) 


由 式 〈9-1) 等 号 的 右边 可 知 ， 概 率 与 时 间 无 关 ， 因 此 可 以 写成 状态 转移 概率 的 形式 





ai =Pl=5S =S，Lsi，J<N (9-2) 


且 满 足以 下 属性 : 


《9-3 ) 


因为 上 述 过 程 的 输出 等 于 每 个 时 刻 的 状态 集 ， 因 此 也 称 作 是 一 个 可 观测 的 隐 马 尔 可 夫 模 
型 。 这 种 模型 在 实际 中 受到 很 多 限制 ， 可 以 对 其 进行 扩展 ， 假 定 观测 基 是 状态 的 概率 函数 ， 
即 风 入 一 个 不 可 观测 的 随机 过 程 ， 得 到 的 模型 是 一 个 双重 随机 过 程 ， 这 就 是 隐 马 尔 可 夫 模 
型 。 

一 个 隐 马 尔 可 夫 模 型 具有 以 下 元 素 ; 

。 N 一 一 模型 的 隐 状 态 数目 。 虽 然 这 些 状 态 是 隐 含 的 ， 但 是 在 许多 实际 应 用 中 ， 模 卉 

的 状态 通常 有 具体 的 物理 意义 。 
e 1M 一 一 每 个 状态 的 不 同 观 测 值 的 数目 。 
。 4 一 一 状态 转移 概率 矩阵 4= {faj}， 月 有 
dj=Plq=Sil19q=S)，lI<i，J 入 N 
e 8 一 一 观测 概率 矩阵 妃 = 亿 ()}， 且 有 
oO=Ptwl9g =S，I<7<N1I<k<M 
也 就 是 说 ， 当 状态 为 8 时 ， 观 测 结果 为 w 的 后 验 概率 。 
e 一 一 初始 状态 概率 矩阵 r= fr} ， 且 有 
mr =Pfqg=S，L<i<N 

一 般 地 ， 可 以 用 4 =(4,B,z) 简洁 地 表示 一 个 隐 马 尔 可 夫 模 型 。 给 定 了 N,M,4,B,r 后 ， 

隐 马 尔 可 夫 模 型 可 以 产生 一 个 观测 序列 





O=O0…O: 
其 过 程 如 下 : 
G 根据 初始 状态 概率 矩阵 ， 选 择 一 个 初 状 态 q = 8 。 
@ 令 1=1。 


图 根据 状态 $S; 中 的 符号 的 概率 密度 函数 /xz ) ， 选 zx =w 。 

吧 根据 状态 8 的 状态 转移 概率 oy ， 转 移 到 一 个 新 的 状态 q,, = 8 。 

加 令 !=5+1， 若 f<7T 返回 四 ， 和 否则 结束 。 

实际 中 ， 应 用 隐 马 尔 可 夫 模型 时 必须 解决 3 个 基本 问题 

1) 给 定 观测 序列 O = OO,…Or 和 模型 参数 4 = (4,B,zx) ， 怎 样 有 效 计 算 观 测序 列 的 概 
率 ， 即 P(O14}? 

这 实际 上 是 一 个 计算 问题 ， 即 给 定 模型 参数 和 观测 序列 ， 如 何 计算 由 该 模型 产生 的 观测 
序列 的 概率 。 也 可 以 把 这 个 问题 看 做 评估 给 定 模型 与 给 定 序列 的 匹配 程度 。 
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2) 给 定 观测 序列 O = OO,…O; 和 模型 参数 4 = (4,B,r) ， 怎 样 选 择 一 个 在 某 种 意义 上 最 
优 的 状态 序列 CD=9g …97 ? 

这 个 问题 试图 揭示 模型 隐 含 的 内 容 ， 即 找到 “正确 ”的 状态 序列 ， 但 实际 上 这 是 不 可 能 
的 。 因 此 ， 在 实际 问题 中 ， 经 常 需要 利用 最 优 准 则 解决 这 个 问题 。 

3) 怎样 调整 模型 参数 4 = (4,B,r) ， 使 其 最 大 ? 

这 个 问题 实际 上 是 模型 参数 的 优化 问题 ， 使 其 更 准确 地 解释 给 定 观测 序列 是 怎样 产生 
的 。 用 来 调整 模型 参数 的 观测 序列 称 为 训练 序列 ， 用 它 可 以 训练 隐 马 尔 可 夫 模 型 。 

根据 是 否 对 观测 向 量 进行 矢量 化 ， 可 把 隐 马 尔 可 夫 模 型 分 为 离散 概率 密度 型 和 连续 概率 
密度 型 。 对 于 离散 概率 密度 型 ， 观 测 向 量 只 能 取 码 本 中 的 有 限 个 码 字 ;对 于 连续 概率 密度 
型 ， 其 形式 有 高 斯 型 、 高 斯 混合 型 、 高 斯 自 回 归 型 等 。 另 外 ， 根 据 不 同 状态 之 间 相 互 转换 的 
规律 不 同 ， 可 将 隐 马 尔 可 夫 模 型 分 为 自 左 到 右 和 全 连接 两 种 拓扑 结构 。 

2. 基本 算法 

针对 前 面 3 个 基本 问题 ， 人 们 提出 了 相应 的 算法 。 

(1) 前 向 -后 向 算法 

这 个 算法 用 来 计算 给 定 一 个 观测 序列 O = OO,…Or 和 模型 参数 4 ={(4,B,rx) 时 ， 模 型 的 
输出 概率 P{fO14 。 

隐 马 尔 可 夫 模型 的 前 向 概率 为 


aqaDD=P(OO…O,q =il (9-4) 
表示 给 定 HMM 参数 ， 部 分 观测 序列 {OO,…O,} 在 时 刻 上 处 于 状态 站 的 概率 。 
它 的 递 推 计算 公式 如 下 : 
外 初始 化 : 
waD=rbO)，L<i<N (9-5) 
@) 迭 代 计算 : 
N 
oO-| 羡 wom ja 1<i<7T-1，l1< 7 和 N (9-6) 
i 二 | 
@ 终止 计算 : 
人 
P(OID=》.a() (9-7) 
i=1 
隐 马 尔 可 夫 模 型 的 后 向 概率 为 
忆 OD =PtOO…Or,qr =|4} 《9-8) 
表示 给 定 HMM 参数 ， 观 测序 列 在 时 刻 ! 处 于 状态 ， 系 统 输出 部 分 观测 序列 (OO …Or) 
的 概率 。 
它 的 递 推 计 算 公 式 如 下 : 
@ 初始 化 : 
PiD=1，L<ig<N (9-9) 
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@ 友 代 计算 : 
AN 
BOD=》 aibo(O0)60)，L<tgT-1，1<igN (9-10) 
=1 


这 样 ， 可 以 根据 前 向 概率 和 后 向 概率 得 到 HMM 整个 观测 序列 的 输出 概率 为 
从 N_ AN 
P(OI)=2>.a()602(0D=》 2 aapb(O)CD，L<ts<T-1 (9-11) 
i=1 


万 ! 
(2) Viterbi 算法 
这 个 算法 用 于 解决 给 定 一 个 观测 序列 O = OO, …O 和 模型 参数 4 = (4,B,x) 时 ， 在 最 优 
的 意义 上 确定 一 个 状态 序列 CO = qq …9r 的 问题 。Viterbi 算法 广泛 应 用 于 通信 和 领域 的 动态 规 
划 ， 它 不 仅 可 以 找到 一 条 “最 优 ” 的 状态 转移 路 径 ， 还 可 以 得 到 该 路 径 对 应 的 输出 概率 。 
Viterbi 算法 可 以 叙述 为 : 定义 6.(D) 为 时 刻 ! 时 沿 一 条 路 径 ，q9 …9qg,,9, =S ， 则 它 产 生 
出 OO,…O 的 概率 最 大 。 


其 过 程 如 下 : 
G 初始 化 ， 
00D=mbO) 1<i<N 
Wi 人 (D=1 1<i 和 N (9-12) 
@) 递归 计算 : 
5(07D)=max[6-(Do]o(O) 2<t<T 1I<7<N 
久 iD)=argmax[56 (aol 1<i<T, 1I<7<N 《9-13) 
1sisA 
人 @@ 终止 计算 
下 = Jax[9r(] 
(9-14) 
: 97 于 本国 国 Uer 和 刘 
由 求 取 状 态 序 列 : 
9 = 多 sa(go)， 1 世上 乞 了 -1 (9-15) 


(3) Baum-Welch 算法 

这 个 算法 用 于 解决 HMM 的 参数 估计 问题 ， 即 给 定 一 个 观测 序列 O= OO …Or ， 该 算 
法 能 确定 一 个 4 = (4,B,x) ， 使 得 P{O|1 人 最大。 

由 式 〈9-11) 可 知 ， 需 要 求 取 14 ， 使 得 概率 Pf{fO|4 人 } 最大。 实际 中 ，Baum-Welch 算法 
利用 递归 的 思想 ， 使 得 P{fO|14} 局 部 最 大 ， 最 后 得 到 模型 参数 4 = (4,B,r) 。 

记 上 专心 六 为 给 定 训练 序列 O 和 模型 参数 1 时， 1 时 刻 马 尔 可 夫 链 处 于 SS 状态 和 z+1 时 刻 
为 8 状态 的 概率 ， 即 

各 (G7D= PtO,O = SO = Si 用 (9-16) 
可 以 推导 出 
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上 7)=[a()aroi(2D0 人 CAPLOEA 《9-17) 
于 是 ，# 时 刻 马 尔 可 夫 链 处 于 $; 状态 的 概率 为 


AN 2 
GOD=P(O,O =Si14 -67- 人 (9-18) 








因此 ， 记 5 表示 从 8 状态 转移 出 去 的 次 数 的 期 望 值 ， 而 人 刀 表 示 从 $; 状态 转 


1=1 


移 到 S， 状态 的 次 数 的 期 记 值 。 由 此 ， 可 以 得 到 Baum-Welch 算法 的 重 估 公式 : 





元 = 弓 ( 门 (9-19) 
7-! 
台 ( 放 
万 = 导 - (9-20) 
上 (站 
f=1 
下 
全 六 
万 (O. =w)= 二 了 (9-21) 
六 (用 


HMM 的 参数 估计 过 程 如 下 : 

@ 选取 初始 模型 参数 4 = (4,B,r) 。 

四 根据 观测 序列 O ， 由 式 〈9-19) ~ 式 〈9-21) 求 得 一 组 新 参数 4 = (4, 如 ,元 ， 可 以 证 
明 PfO14}> P{O|4}。 

图 重复 第 @ 步 ， 逐 步 改 进 模型 参数 ， 直 至 P{O| 各 收敛 ， 此 时 的 趟 即 为 所 求 的 模型 参数 。 


2 相关 函数 介绍 | 


给 定 一 个 隐 马 尔 可 夫 模 型 ， 要 想 在 实际 中 能 够 应 用 ， 必 然 解决 以 上 3 个 基本 问题 。 统 计 
工具 箱 提 供 了 5 个 函数 用 于 隐 马 尔 可 夫 模 型 分 析 : 
1) hmmgenerate 一 一 产生 一 个 隐 马 尔 可 夫 模 型 序列 。 
其 调用 格式 如 下 : 
[seq,states] = hmmgenerate(len,TRANS,EMIS) 
hmmgenerate(...,. Symbols,SYMBOLS) 
hmmgenerate(..., Statenames',STATENAMES) 
其 中 ，/jen 是 序列 的 长 度 ，7TR4NS 是 状态 转移 概率 矩阵 ，EMTS 是 观测 概率 矩阵 ;seq 
返回 一 个 观测 序列 ;states 返回 一 个 状态 序列 。 
【 例 9-1】 根据 给 定 的 状态 转移 概率 和 矩阵 和 观测 概率 矩阵 生成 隐 马 尔 可 夫 模型 序列 。 
其 实现 的 MAILAB 程序 代码 如 下 : 








>> cjear alj; 

% 状 态 转移 概率 矩阵 

trans = [0.95,0.05;0.10,0.90]; 

% 观 测 概率 矩阵 

emis = [1/6 1/6 1/6 16 176 116;.… 
1/10 1/10 1/10 1/10 1/10 1/2]; 

% 产 生 隐 马 尔 可 夫 模 型 序列 

len=10; 

[seq,states] = hmmgenerate(len,trans,emis) 

[seq,states] = hmmgenerate(lemtrans,emis,…. 
"Symbols,{fone',two'three' four five' six 了 
Statenames',ffair;'loaded'") 

运行 程序 ， 输 出 如 下 : 
观测 序列 为 
Sedq = 
] 6 6 3 5 1 3 6 6 6 
状态 序列 为 
states 一 
1 ] 1 1 1 1 ] 1 长 2 


观测 序列 为 


Seq 三 
"和 ve' 


状态 序列 为 
States 二 
fair fair fair "fair fair fair fair 1fair fair fair 
2) hmmdecode: 计算 给 定 观测 序列 的 概率 [求解 第 D) 个 问题 ]。 
其 调用 格式 如 下 : 


PSTATES = hmmdecode(seq,TRANS,EMIS) 

[PSTATES,logpseq] = hmmdecode(.….) 
[PSTATES,logpseqFORWARD,BACKWARD,S]= hmmdecode(..) 
hmmdecode(..,'Symbols,SYMBOLS) 


其 中 ，seq 是 观测 序列 ，TR4NS 是 状态 转移 概率 和 矩阵，EHM1S 是 观测 概率 矩阵 ; 
PSI47ES 返回 后 验 概 率 ; 1ogpsed 返回 观测 序列 概率 的 对 数值 ，FORJA4RD，B4CKJF4RD 分 
别 返回 序列 的 前 向 概率 和 后 向 概率 概率 ; 8 是 尺度 。 

【 例 9-2】 计算 给 定 模型 下 的 观测 序列 的 后 验 概 率 。 

其 实现 的 MATLAB 程序 代码 如 下 ; 


One' two' 'one' 'one' "ve' ive' "two' "Six' "one' 


>> clear all; 


% 状 态 转 移 概率 矩阵 
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trans = [0.95,0.05;0.10.0.90]; 
% 观 测 概率 矩阵 
emis = [1/6 1/6 1/6 1/6 16 1/6; 
1/10 110 1710 110 1710 1/2]; 
% 产 牛 隐 马 尔 可 夫 模 型 序列 
len=10; 
[seql,states] = hmmgenerate(jen,trans,emis); 
Seql 
吧 计 算 观 测序 列 的 后 验 概率 
[pStatesl,logp1]=hmmdecode(seql,trans,emis) 
% 产 后 隐 马 尔 可 夫 模 型 序列 
[seq2,states] = hmmgenerate(len,trans,emis,…. 
Symbols,fone',two' three', four,five' six ); 
Seq2 
% 计 算 序列 的 后 验 概 率 
[pStates2,logp2]= hmmdecode(seq2,trans,emis,…， 
"Symbols,fone',two'three'four, ve' six') 


运行 程序 ， 输 出 如 下 : 
第 一 次 产生 的 观测 序列 为 





seq] = 
3 了 5 3 3 6 5 2 4 


其 后 验 概率 为 


pStates1] = 
0.9912 0.9846 0.9781 0.9692 0.9548 0.9299 0.8857 0.9053 了 0.9079 0.8945 
0.0088 0.0154 0.0219 “0.0308 0.0452 0.0701 0.1143 0.0947 0.0921 ”0.1055 


观测 序列 概率 的 对 数值 
logpl1 = -18.2070 
第 次 产生 的 观测 序列 为 


Seq2 = 
five” three' five' five three' one' two "three' two' two' 


其 后 验 概 率 为 


pStates2 = 
0.9924 0.9880 0.9853 0.9833 0.9814 0.9789 ”0.9748 0.9678 0.9554 ”0.9331 
0.0076 0.0120 0.0147 ”0.0167 0.0186 0.0211 0.0252 0.0322 0.0446 ”0.0669 


观测 序列 概率 的 对 数值 
logp2 = -1!18.3029 
3) hmmestimate 一 一 给 定 观测 序列 和 状态 序列 下 ， 估 计 隐 马尔 可 夫 模型 的 参数 。 





其 调用 格式 如 下 : 


[TRANS,EMIS] = hmmestimate(seq,states) 
hmmestimate(...,Symbols,SYMBOLS) 
hmmestimate(...,Statenames'\,STATENAMES) 
hmmestimate(.…,,Pseudoemissions',PSEUDOE) 
hmmestimate(.…,' Pseudotransitions',PSEUDOTR) 


其 中 ，seq 是 观测 译 列 ;states 是 状态 序列 ; TRANS 返 辐 状态 转移 概率 矩阵 的 极 大 似 然 


估计 ; EMIS 返回 观测 概率 矩阵 的 极 人 似 然 估计 。 


【 例 9-3】 给 定 观 测序 列 和 状态 序列 下， 估计 隐 马 尔 可 夫 模 型 的 参数 。 


其 实现 的 MATLAB 程序 代码 如 下 : 


>> clear all; 
% 状 态 转 移 概 率 和 矩 隆 
trans = [0.95,0.05; 0.10,0.90]; 
% 观 测 概率 逢 阵 
emis = [1/6 1/6 16 L6 16 116;… 
110 1/10 110 110 1710 12] 
% 产 生 隐 马尔 可 大 模型 序列 
len=10; 
[seq,states] = hmmgenerate(1000,trans,emis); 
%% 估 计 模 型 的 参数 


[estimateTR.estimateE] = hmmestimate(seq,states) 


运行 程序 ， 输 出 如 下 : 
实际 的 状态 转移 概率 对 阵 为 


trans 三 
0.9500 0.0500 
0.1000 0.9000 


实际 的 观测 概率 矩阵 为 


emis = 
0.1667 0.1667 0.1667 0.1667 0.1667 0.1667 
0.1000 0.1000 0.1000 0.1000 0.1000 0.3000 


估计 的 状态 转移 概率 矩阵 为 


estimateTR = 
0.9520 0.0480 
0.0961 0.9039 


佑 计 的 观测 概率 矩阵 为 





estimateE = 
0.1499 0.1679 0.1589 0.1724 0.1724 0.1784 
0.0871 0.1021 0.1111 0.0931 0.1081 0.4985 





比较 可 见 ， 佑 计 值 和 实际 值 是 一 致 的 。 
4) hmmviterbi 一 一 计算 隐 马 尔 可 夫 模 型 序列 的 最 可 能 的 状态 路 径 [求解 第 2) 个 问题 ]。 
其 调用 格式 如 下 : 
STATES = hmmviterbi(seq,TRANS,EMIS) 人 


hmmviterbi(.…" Symbols,SYMBOLS) 
hmmviterbi(.….,Statenames',STATENAMES) 


其 中 ，seq 是 观测 序列 ， TRANS 是 状态 转移 概率 矩阵 ， EMIS 是 观测 概率 矩阵 ; 
STATES 返回 最 可 能 的 状态 序列 。 

【 例 9-4】 给 定 观 测序 列 和 模型 下 ， 计 算 最 可 能 的 状态 序列 。 

其 实现 的 MATLAB 程序 代码 如 下 : 





>> clear all; 
% 状 态 转 移 概 率 和 矩阵 
trans = [0.95,0.05;0.10,0.90]; 
% 观 测 概率 逢 阵 
emis = [1/6 1/6 1/6 1/6 1/6 116;… 
1/10 1/10 1M10 UV10 JI10 1/2]; 
% 产 后 隐 起 尔 可 夫 模 型 序列 
len=10; 
[seq,states] = hmmgenerate(len,trans,emis); 
% 计 算 状 态 转换 路 径 
estimatedStatesl = hmmviterbi(seq,trans,emis) 
% 产 生 隐 马尔 可 夫 模 型 序列 
[seq,states] =hmmgenerate(len,trans,emis,.. 
'Statenames',f fair;loaded'》); 
% 计 算 状 态 转 移 路 径 
estimatesStates2 = hmmviterbi(seq,trans,emis,…. 
'Statenames',f fair;loaded') 


运行 程序 ， 输 出 如 下 : 
第 一 次 估计 的 最 可 能 状态 序列 为 


estimatedStates1 = 
1 1 1 ] 1 1 1 1 ] 1 


第 二 次 估计 的 最 可 能 状态 序列 为 
estimatesStates2 = 
fair fair fair fair loaded' "loaded' "loaded' "loaded'， loaded' "oaded' 
5) hmmtrain 一 一 隐 马 尔 可 夫 模型 参数 的 极 大 似 然 估计 [求解 第 3) 个 问题 ]。 其 调用 格式 
如 下 ; 


[ESTTR.ESTEMIT] = hmmtrain(seq,TRGUESS， EMITGUESS) 
hmmtrain(.….,"Algorithm',algorithmy) 


MIATLAB SA 





hmmtrain(..,Symbols,SYMBOLS) 
hmmtrain(...,"Tolerance',tol) 

hmmtrain(.…, Maxiterations',maxiter) 
hmmtrain(..., Verbose',true) 
hmmtrain(...,'Pseudoemissions',PSEUDOE) 
hmmtrain(...,Pseudotransitions',PSEUDOTRJ) 


其 中 ，seq 是 观测 序列 ，TRGUESS 是 状态 转移 概率 矩阵 的 初始 值 ， EMITGUESS 是 观测 
概率 矩阵 的 初始 值 ，ESTTR 返回 状态 转移 概率 矩阵 的 极 大 似 然 估 计 ; ESTEMIT 返回 观测 概 
率 扼 阵 的 极 大 似 然 估计 。 

【 例 9-5】 利用 给 定 的 观测 序列 对 模型 进行 训练 。 

其 实现 的 MATLAB 程序 代码 如 下 : 


>> clear all; 
% 状 态 转 移 概 率 垂 阵 
trans = [0.95,0.05;0.10,0.90]; 
% 观 测 概 率 御 阵 
emis = [1/6 1/6 1/6 116 1/6 176;… 
1/10 UM10 1/10 1710 1710 12]; 
% 产 生 陷 马尔 可 夫 模 型 序列 
len=100; 
seql = hmmgenerate(len,trans,emis); 
trans,emis 
seq2 =hmmgenerate(2#len,trans,emjs); 
Seqs = {seql,seq2}; 
[estTR,estE] = hmmtrain(seqs,trans,emis) 


运行 程序 ， 输 出 如 下 ;: 
包 始 状态 转移 概率 矩阵 为 


trans = 
0.9500 0.0500 
0.1000 0.9000 


初始 观测 概率 矩阵 为 


emis 三 
0.1667 0.1667 0.1667 0.1667 0.1667 0.1667 
0.1000 0.1000 0.1000 0.1000 0.1000 0.5000 


训练 后 的 状态 转移 概率 矩阵 为 


estTR = 
0.9854 0.0146 
0.0342 0.9658 


训练 后 的 观测 概率 矩阵 为 


estE = 








六 马 尔 可 去 模型 及 统计 工具 箱 的 示范 程序 


0.1424 0.1824 0.1797 0.1390 0.1731 0.1835 
0.1339 0.0563 0.1220 0.0956 0.1268 0.4654 





HMM 在 识别 中 的 应 用 

1. 基本 原理 

隐 马 尔 可 夫 模 型 (HMM) 在 语音 识别 中 的 作用 非常 重要 ， 得 到 了 广泛 的 应 用 。 在 语音 
识别 中 ， 首 先 需要 建立 一 种 对 应 关系 ， 比 如 ， 使 一 个 字 对 应 一 个 HMM， 此 时 模型 的 状态 上 就 
对 应 这 个 字 所 包含 的 全 部 可 能 的 音素 。 对 应 于 该 字 的 一 个 观测 样本 ， 这 些 音素 会 按照 一 定 的 
顺序 出 现 ， 这 样 就 形成 了 HMM 中 的 状态 序列 ， 是 实际 中 不 可 观测 的 。 实 际 中 ， 可 以 观测 每 
个 字母 声 信号 的 振幅 。 为 了 建立 上 述 对 应 关系 ， 首 先 需要 对 该 字 的 一 组 观测 样本 进行 学 习 ， 
也 就 是 进行 HMM 参数 估计 。 

学 习 了 每 个 字 的 参数 后 ， 就 可 以 用 于 识别 。 也 就 是 对 任意 的 一 组 观测 样本 ， 找 到 最 大 可 
能 产生 该 观测 样本 的 模型 作为 该 字 的 代表 。 一 个 典型 的 语音 识别 过 程 如 图 9-2 所 示 。 


图 9-2 语音 识别 的 基本 过 程 

由 此 可 见 ， 语 音 识 别 过 程 主要 包括 特征 提取 、 模 式 匹 配 及 模型 训练 3 个 方面 。 此 外 ， 还 
涉及 语音 识别 单元 的 选取 。 

(1) 语音 识别 单元 的 选取 

选择 识别 单元 是 语音 识别 应 用 的 第 一 步 。 语 音 识 别 单元 包括 单词 、 音 节 和 音素 3 种 ， 实 
际 中 根据 具体 的 应 用 来 选取 。 

(2) 特征 提取 

语音 信号 中 含有 丰富 的 信息 ， 但 如 何 从 中 提取 出 对 语音 识别 有 用 的 信息 是 一 个 关键 的 问 
题 。 通 过 特征 提取 ， 可 以 对 语音 信号 进行 分 析 处 理 、 去 除 无 关 紧 要 的 抑 余 信息 ， 获 得 语音 信 
号 的 重要 信息 。 

(3) 模式 匹配 及 模型 训练 

HMM 是 语音 信号 识别 特征 的 参数 表示 ， 它 由 相关 联 的 两 个 随机 过 程 共同 描述 信号 的 统 
计 特 性 。 其 中 ， 一 个 是 隐 含 的 具有 有 限 个 状态 的 马尔 串 夫 链 《〈 不 可 观测 ) 另 一 个 是 与 马尔 
可 夫 链 的 每 一 个 状态 相关 联 的 观察 矢量 的 随机 过 程 〈 可 观测 )。 其 中 ， 隐 马尔 可 夫 链 的 特征 
要 依赖 观测 到 的 信号 特征 来 揭示 。 于 是 ， 语 音信 号 的 某 一 段 的 特征 就 由 对 应 状态 的 观察 符号 
的 随机 过 程 描述 ， 而 信号 随时 间 的 变化 由 隐 马 尔 可 夫 链 的 状态 转移 概率 矩 阵 描述 。 

模型 训练 是 按照 一 定 的 准则 ， 从 大 量 已 知 模式 中 获取 表征 该 模式 特征 的 模型 参数 。 模 式 
匹配 则 是 根据 一 定 的 准则 ， 使 未 知 模式 与 模型 库 中 的 某 一 个 模型 获得 最 佳 匹 配 。 

2. 示例 分 析 

在 此 ， 将 通过 一 个 具体 的 例子 来 说 明 独 立 词 的 语音 识别 步骤 ， 有 具体 背景 为 ; 利用 HMM 
识别 单词 0-9， 每 个 单词 都 有 重复 的 10 次 发 音 ， 每 一 个 发 音 的 语音 信号 的 长 度 为 4800。 





:五 站 
语音 


识别 结果 


















(1) 信号 预 处 理 

将 采集 的 语音 信号 分 成 长 度 为 的 块 ， 相 邻 块 起 点 之 间 的 间隔 为 AN 。 比 如 ， 长 度 为 
N,. =10000 的 样本 ， 取 N=320 ，AN =80 ， 则 块 的 数目 为 T=1+[(N,-N)/AN]=122 。 这 
样 ， 观 测 时 间 可 以 表示 为 4= 全 2…,T} 。 


(2) 特征 提取 

对 观测 的 语音 信号 来 说 ， 可 以 有 很 多 不 同 的 特征 ， 包 括 时 域 和 频 域 的 。 在 语音 识别 
中 ， 和 常用 的 方法 是 利用 线性 预测 编码 (LPC) 对 语音 信号 进行 特征 分 析 。 本 文 先 进行 
LPC 分 析 ， 再 将 LPC 系数 转化 为 倒 谱 系数 。 记 LPC 分 析 的 阶 次 为 M， 倒 谱系 数 的 数目 
为 2， 为 了 增加 动态 信息 ， 将 @ 个 倒 谱系 数 的 差 也 作为 特征 参数 ， 因 此 特征 参数 的 长 度 
为 2X@O@。 实 际 应 用 时 ， 对 每 一 块 的 语音 信号 都 进行 同样 的 处 理 ， 这 样 可 以 得 到 特征 向 
量 序 列 人 , 思 ，… 太 } 。 

特征 提取 的 过 程 可 以 用 下 面 的 函数 实现 : 


function y=hmmfeatures(s,N,deltaN,M,Q) 


Ns=length(s); % 信 号 长 度 
T=1+fix((Ns-N)/deltaN); % 块 的 数目 
a=Zeros(Q,1); 


gamma=zeros(Q,1); 
gamma_w=zeros(Q,T); 
win_gamma=1+(Q/2)*sin(piQ*(1:Q)D7; % 计 算 倒 谱 的 窗 函 数 
for 寻 1:T 
idx=(deltaN*(t-1)+1):(deltaN*(t-1)+N); 
sw=s(idx).*hamming(N); 
[rs,eta]=xcorr(sw,Mybiased); 
% 基 于 Levinson-Durbin 递归 的 LPC 分 析 
[a(1:M),xikappal=durbin(rs(M+1:2*M+1),MD); 
% 倒 谱系 数 
gamma(])=a(]); 
for ji=2:Q 
gamma(i)=a(D+(1:i-1UD)*(gamma(1:i-1T).*a(i-1:-1:1))/i 
end 
% 加 权 的 倒 谱 序列 
gamma_w(:tb=5gamma.*win_gammai 
end 
% 倒 谱 序 列 的 差 
delta_gamma_w=gradient(gamma_w); 
% 特 征 向 量 
y=[gamma_w;delta_gamma_w]; 
(3) 矢量 量化 
为 了 应 用 离散 概率 密度 型 的 HMM， 需 要 对 上 述 观测 的 特征 向 量 进行 矢量 量化 ， 它 的 作 
用 是 产生 一 个 包含 玉 个 可 能 的 观测 向 量 的 码 本 。 这 样 ， 通 过 特征 提取 过 程 ， 从 每 个 单词 的 一 
次 发 音 的 信号 中 可 以 得 到 观测 序列 bm ,六 ,，…,* 攻 } ， 再 通过 矢量 量化 ， 产 生 离 散 的 观测 序列 
人 区, 力 ，… 芒 }。 其中， 每 个 罗 可 能 取 1< 大 和 天 之 间 的 整数 〈 对 应 码 本 中 的 索引 )。 可 以 利用 
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有 -均值 聚 类 方法 进行 失 量 其 化 。 
矢量 量化 的 过 程 可 以 用 如 下 的 函数 实现 ; 


function [Yc,c,errlog]=kmeans(YK,maxiter) 





[MN]=size(Y); 
iKK>M) 
error('More centroids than data vectors.) 
end 
errlog=Zzeros(maxiter,1); % 每 次 友 代 误差 的 对 数值 
% 初 始 聚 类 中 心 


perm=randperm(M); 
Yc=Y(perm(1:K),); 
d2y=(ones(K,1)*sum((Y.^2)7))7; 
for 这 1:maxiter 
% 保 留 旧 聚 类 中 心 ,以 判断 是 奋 友 代 终止 
Yc_ old=Yci; 
%Y 与 Yc 行 之 加 的 Euclidean 距离 的 平方 
d2=d2y+ones(M,1)*sum((Yc.^2))-2*Y*Yc'; 
吕 分配 Y 中 的 每 一 个 向 量 到 最 近 的 中 心 
[errvals,c]=mijn(d27); 
% 调 整 聚 类 中 心 
for k=]1:K 
if(Sum(c==k)>0) 
Ycl(k,:)=sum(Y(c 一 k,:))sum(c==k); 
end 
cnd 
errlog(iD)=sum(errvals); 
fprintft1.lteration 9%4d...Error 9%611.6f\n',i,errlog(i)); 
% 判 断 终止 条 件 
计 (max(max(abs(Yc-Yc_old)))<10*eps) 
errlog=errlog(1:1; 
retum 
end 
end 


(4) 模型 训练 

接 下 来 就 可 以 利用 这 些 码 本 对 HMM 进行 训练 ， 下 面 以 单词 “1” 的 训练 为 例 进 行 说 
明 ， 其 他 单词 的 训练 类 似 。 

其 实现 的 MATLAB 程序 代码 如 下 : 


>> clear 3a]]; 

% 读 取 语 音信 和 妇 
load ti46 
data=ti46.case(27:36); 
L=length(data); 

% 信 和 号 预 处 理 参 数 
N=320; 


、 匹 MATEA 六 用 概率 与 数理 统计 分 析 





deltaN=80; 
M=12; 
Q=12; 
% 矢 量 量化 参数 
K=]10; 
maxiter 一 500; 
%HMM 初始 化 参数 
% 状 态 数 
States=$; 
%HMM 训练 
estA=Zeros($,5,L); 
estB=zeros(3$,10,L); 
% 提 取 特 征 
for i=1:L 
% 初 始 状态 转移 概率 矩阵 
A0=rand(states,states); 
AO0=A0.repmat(sSum(A0),states,1); 
B0=rand(Kk ,states); 
BO=(B0.repmat(sum(B0),K,1))7; 
forj=1:1 
xdata=load(data{ 全 ); 
y=hmmfeatures(xdata,N,deltaN,MQ); 
% 矢 量 量化 
[yc,c'errlog]=kmeans(y,K,maxiter); 
% 训 练 
[A0,B0]=hmmtrain(c,A0,.B0); 
end 
estA(:,i) 王 A0; 
estB(2,i)==B0; 
end 
(5) 语音 识别 
训练 完 以 后 ， 就 可 以 利用 这 些 HMM 对 给 定 的 语音 信号 进行 识别 。 
for i=1:10 
[pStats,ljogp]=hmmdecode(c,estA(:,i),estB(:)); 
pP(D=logp; 
end 
% 概 率 大 小 
Pp 


概率 最 大 的 HMM 模型 对 应 的 单词 就 是 识别 的 结果 。 
9.2 ”示范 程序 


统计 工具 箱 还 提供 了 一 些 示 范 程 序 ， 这 些 程序 通过 创建 一 个 交互 的 图 形 环境 来 演示 统计 
分 布 函数 、 随 机 数 生成 器 、 曲 线 拟 合 ， 以 及 实验 设计 函数 的 用 法 ， 见 表 9-1。 绝 大 多 数 示范 
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程序 都 提供 了 图 形 界 面 ， 可 以 使 用 自己 的 数据 ， 而 不 仅仅 是 - - 些 例子 程序 。 


表 9-1 示范 程序 函数 


一 Tarear 
anocova 拟 合 的 斧 革 图 尼 预 型 | dstool | 
















统计 分 布 的 作 上 图 形 界 而 
随机 生成 并 的 父 疆 控制 
实验 变 计 和 回归 模型 


各 棒 和 最 小 乘 拟 合 的 安 f 比 较 | mmdmo | 


序 






robustdemo 





aocctool 演示 程 

aoctool 函数 

功能 : aoctool 是 一 个 通过 分 析 协 方差 模型 来 拟 合 或 预测 的 疼 形 办 而。 

说 明 : 协 方差 分 析 含 有 一 个 结果 (了 ， 要 预测 的 值 )》 和 一 个 预测 数 〈x ， 一 些 用 来 预测 . 
的 数据 )。 通 过 协 方差 分 析 ， 可 以 将 作为 的 线性 模型 ， 其 中 数据 组 之 间 的 协 方差 可 能 是 
互 不 相同 的 。Aoctool 函数 对 以 下 每 组 数据 进行 不 同 的 拟 合 。 

e 相同 的 均值 : >=w+e。 

e@ 独立 的 均值 : y=(w+a)+E。 

e 相同 的 线 上 : y=cw+Px+E。 

@ 平行 线 上 : y=(c+awi)+Rx+e。 

e 独立 的 线 上 :yy=(w+w)+(B+D)x+E。 

举例 来 说 ， 在 第 四 个 模型 中 ， 每 个 组 的 截 距 是 不 相同 的 ， 但 是 斜率 是 相同 的 。 在 第 一 个 
模型 中 ， 只 有 一 个 常数 的 截 距 ， 没 有 斜率 。 为 了 使 方程 中 的 系数 容易 确定 ， 约 定 
Zawi = 过 5. =0 。aoctool 函数 用 3 个 数据 窗口 来 显示 拟 合 结果 ， 第 一 个 窗口 显示 系数 的 估计 
(aa,p,8) 。 第 二 个 窗口 显示 了 一 个 变化 表 ， 通 过 这 个 表 ， 可 以 决定 ， 一 个 复杂 的 模型 是 
否 比 一 个 简单 的 模型 更 有 意义 。 第 三 个 窗口 是 主 窗口 ， 有 以 下 特征 : 

e@ 有 重 二 拟 合 线 和 可 选 署 信 区 间 的 数据 的 图 。 

e )》 轴 的 文字 是 用 来 显示 当前 x 值 预测 的 > 值 和 * 值 的 不 确定 性 ， 如 果 当 前 选中 的 是 一 

个 组 。 

e 一 个 数据 和 输入 窗口 用 来 计算 对 一 个 指定 的 x 值 的 拟 合 。 

e 一 个 列 的 窗口 用 来 显示 一 个 指定 组 的 拟 合 线 或 显示 所 有 组 的 拟 合 线 。 

e@ 可 以 拖 动 的 竖 直 参 考 线 用 来 观察 变化 的 x 值 的 拟 合 值 。 

e 一 个 关闭 按键 用 于 关 掉 这 个 演示 程序 。 

e 一 个 输出 列表 框 用 于 把 拟 合 后 的 结果 输出 到 变量 中 。 

【 例 9-6】 统计 工具 箱 中 有 一 个 很 小 的 数据 集合 carsmall， 其 中 包括 了 一 些 关 于 汽车 的 
信息 。 这 很 适合 用 aoctool 函数 来 做 实验 ， 当 然 也 可 以 用 自己 找到 的 数据 。 

首先 ， 打 开 数 据 库 ， 载 入 数据 。 
>> load carsmall 


who 
Your variables are: 








Acceleration ” Displacement MPG Model_Year Weight 
Cylinders Horsepower Model Origin 


假设 想 找 汽车 的 质量 和 英里 数 ， 而 且 想 知道 这 个 关系 几 年 以 后 是 否 有 效 。 
第 二 ， 打 开 aoctool 函数 。 


>> [hatab,ctab,stats]=aoctool(Weight,MPG,Model _ Year 


这 个 工具 输出 一 个 主 窗口 〈 见 图 9-3)， 一 个 系数 估计 窗口 〈 见 图 9-4)， 还 有 一 个 变量 
分 析 窗 口 〈 见 图 9-5)。 





图 9-3 主 窗 员 


每 一 组 的 数据 都 以 它 自己 的 符号 和 颜色 表示 出 来 ， 而 且 拟 合 线 的 颜色 与 数据 组 的 颜色 是 
相同 的 。 


到 机 OCS COeTETLECTe 了 
File gdit 下 mw JInsert Tools Dasktopg indow elp 
Coeficient Estimates 


Estimete 


5. 9798 1 52055 
-9. 5805 1 %1965 


-3. 989302 1. 86864 
12. 4707 2 3568 
-90. 0079 0. 00056 
D. 002 0.00066 
0 0011 0 00065 
-0. 0031 0 001 四 0. 0026 





图 9-4 系数 估计 窗 员 


最 初 以 线性 模型 来 拟 合 变量 贡 ，Weight 得 到 变量 YY，MPG， 每 一 组 都 有 自己 独立 的 直 
线 。 这 3 条 直线 的 系数 出 现在 以 ANOCOVA Coefficients 为 标题 的 图 形 中 。 可 以 看 到 斜率 大 


Model Year 70: y=(45.9798-8.5805)+(-0.0078+0.002)x+ 局 


Model Year 76: y=(45.9798-3.8902)+(-0.0078+0.0011)x+ E 
Model Year 82: y=(43.9798-12.4707)+(-0.0078-0.0031)x+ 忆 


可 以 注意 到 ， 这 3 条 拟 合 曲线 有 几乎 一 样 的 斜率 ， 它 们 实际 上 相同 吗 ? Model Years 
Weight 表示 了 和 斜率 的 不 同 ， 而 且 ANOVA 表 也 对 该 项 的 意义 做 了 测试 。 通 过 一 个 523 的 开 





十 
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统计 量 和 一 个 0.072 的 尸 值 ， 可 以 知 到 斜率 是 明显 不 相同 的 。 


EROCOYA Test ResuTts 到 | 加 jj 好 
Edit 三 ew JInsert Toeols Desktop 和 indow Help 沁 
ANOVA Table 


LE Sum Sa Joan Sa 了 FrobF 大 





2 807.53 403. 84 51. 98 0 
鸣 Gi ERht 1 2050. 2 2050. 2 253. 87 9 
pdaol_Yoark+RoiEght 2 81. 22 40.561 5. 23 0. 0072 
[Error 88 583. 74 7T.TT7 





| 
图 9-5 ANOCOVA 测试 结果 


当 3 条 线 的 斜率 相同 时 ， 为 了 检验 拟 合 的 效果 ， 返 回 到 ANOCOVA Prediction Plot 窗口 
( 见 图 9-3)， 在 【Model]】 菜单 中 选择 了 “Parallel Lines (平行 线 模型 )”， 窗 口 更 新 返回 如 图 9-6 
所 示 的 结果 。 

尽管 看 上 去 是 合理 的 ， 但 是 相对 于 独立 直线 模型 来 说 ， 这 是 绝对 错误 的 。 使 用 Model 弹 
出 菜单 ， 恢 复 到 原始 状态 。 

下 面 介绍 aoctool 函数 的 两 个 特性 。 

e 置信 区 间 。 

e 多 重 比 较 。 


ARGCOYA PredictTom 
sa dit Yiey Rounds Insert Toolsz Desktop 昌 adow jsipy 








图 9-6 “平行 线 模型 窗 山 


1. 置信 区 间 

已 经 估计 了 第 一 个 Model _ Year 的 MPG 和 Weight 的 关系 ， 但 是 它们 有 多 精确 呢 ? 如 果 
每 次 只 检查 一 个 组 的 数据 ， 可 以 把 置信 区 间 和 拟 合 线 硕 加 起 来 显示 。 在 图 形 右 下 角 的 
【Model Year】 菜 单 中 ， 把 设置 All Group 改 为 82， 其 他 数据 就 会 消失 了 ， 同 时 置信 区 间 出 
现在 82 的 拟 合 曲线 周围 ， 如 图 9-7 所 示 。 

Model Year 82 的 线 的 周围 ， 用 虚线 包围 了 起 来 。 在 假设 数据 满足 线性 关系 的 前 提 下 ， 
这 个 关系 为 真正 的 线 提供 一 个 95% 的 午 信 区 间 。 注 意 到 拟 合 其 他 Model Year 时 ， 对 于 
Weight 在 2000~3000 之 间 ， 有 一 大 部 分 数据 落 在 置信 区 间 的 外 面 。 








图 9-7 置 舍 区 间 出 现在 82 的 拟 合 曲线 周南 


有 时 候 ， 更 有 意义 的 是 能 够 对 新 的 观察 预测 出 喇 应 值 ， 不 是 仅仅 估计 出 纤 均 响应 值 。 
aoctool 函数 有 一 个 【Bounds 】 菏 单 来 设置 置信 区 间 的 定义 。 用 这 个 菜单 把 Line 改 为 
Observation， 如 图 9-8 所 示 ， 结 果 区 间 变 宽 了 ， 说 时 了 参数 估计 的 不 确定 性 ， 也 说 明了 新 的 


观察 值 的 随机 性 。 








图 9-8 ”Observation 效果 图 


2. 多 重 性 


通过 把 aoctool 函数 的 输出 结果 stats 作为 multcompare 函数 的 输入 结果 ， 可 以 做 一 个 
多 重 比较 测试 。multcompare 函数 可 以 测试 斜率 、 截 距 或 者 总 体 边缘 均值 。 在 本 例 中 ， 已 
经 知道 斜率 并 不 是 总 是 一 样 的 ， 但 是 能 不 能 有 两 个 相同 ， 而 其 他 的 不 同 呢 ? 下 面 来 检验 这 


个 假设 。 
>> mujtcompare(stats,0.05,on',",S) 
ans = 
1.0000 2.0000 -0.0012 0.0008 
1.0000 3.0000 ”0.0013 0.0051 
2.0000 3.0000 ”0.0005 0.0042 


0.0029 
0.0088 
0.0079 


这 个 矩阵 说 明了 第 一 组 和 第 二 组 〈1970 年 和 1976 年 ) 的 截 距 的 差异 是 0.0008， 而 且 这 
个 差异 的 置信 区 间 是 [-0.0012，0.0029]。 这 两 组 之 间 没 有 明显 的 不 同 ， 但 是 1982 年 的 截 距 与 
其 他 两 个 是 明显 不 一 样 的 ， 图 9-9 显示 了 相同 的 信息 。 
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图 9-9 多 重 比较 





disttool 演示 程序 


disttool 函数 

功能 ;disttool 通过 图 形 环境 增加 对 统计 分 布 的 直觉 理解 。 
说 明 : disttool 示范 程序 有 以 下 几 个 特点 : 

e 对 给 定 的 参数 cdf (pdf) 画 出 图 形 。 

e@ 弹出 菜单 用 来 改变 分 布 函数 。 

e 弹出 菜单 用 来 改变 分 布 函数 的 类 型 (cdf<->pdf)。 

e 滑 标 用 来 改变 参数 设置 。 

e 数据 输入 对 话 框 用 来 选择 特别 的 参数 值 。 

e 数据 输入 对 话 框 也 可 以 用 来 限制 参数 的 范围 。 

e 可 以 拖 动 的 水 平和 紧 直 参考 线 。 

e 一 个 数据 输入 窗口 可 以 输入 指定 的 x 值 。 

e 对 于 cdf 作 图 ， 在 > 轴 上 还 有 一 个 数据 输入 窗口 可 以 查找 指定 概率 的 临界 值 。 
e 一 个 关闭 按钮 用 于 结束 演示 。 

其 界面 如 图 9-10 所 示 。 











图 9-10 disttool 演示 程序 界面 


范 程 序 








蕊 下 "ovoo 演示 程序 
polytool 函数 
功能 : polytool 是 多 项 式 曲线 拟 合 的 预测 图 形 环境 。 
e 图 形 区 包含 数据 、 拟 合 的 曲线 、 新 预测 值 的 置信 区 间 。 
e yy 轴 上 的 文字 显 出 的 预测 值 ， 以 及 对 于 当前 x 值 的 不 确定 性 。 
e 数据 输入 对 话 框 用 来 改变 多 项 式 拟 合 的 程度 。 
数据 输入 对 话 框 用 米 计 算 给 定 x 值 的 多 项 式 的 值 。 
可 以 拖 动 的 水 平和 坚 直 参考 线 。 
区 间 和 方法 菜单 可 以 控制 置信 区 间 ， 以 及 选择 最 小 一 乘 拟 合 还 是 鲁 棒 拟 合 。 
-个 输出 列表 框 可 以 将 拟 合 后 的 结果 和 输出 到 变量 中 。 
一 个 关闭 按钮 用 于 结束 演示 。 
用 户 可 以 用 polytool 函数 对 任何 数据 进行 曲线 拟 合 和 预测 。 但 是 ， 出 于 预测 的 目的 ， 统 
计 工 只 箱 提供 了 一 个 数据 文件 (polydata.dat) 来 介绍 一 些 基 本 的 概念 。 


>> load polydata 
>> who 
Your variables are: 
区 了 23 
变量 x 和 ? 是 从 一 个 3 次 多 项 式 观察 《有 误差 ) 所 得 的 数据 ，xl 和 切 是 “ 真 ” 函 数 的 数据 
如 果 不 指 定 多 项 式 的 次 数 ，polytool 函数 只 对 数据 进行 线性 拟 合 。 


>> polytool(x,y) 
结果 如 图 9-11 所 示 。 





图 9-11 polytool 演示 程序 界面 


线性 拟 合 的 效果 不 是 很 好 ，x 值 在 [0, 2] 区 间 内 的 大 部 分 的 数据 比拟 合 后 的 曲线 坡度 还 要 
陡 ， 右 边 的 两 个 点 把 拟 合 的 曲线 拉 了 下 来 。 
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在 顶部 的 “Degree” 文 本 框 ， 输 入 “3”， 变 成 3 次 模型 。 然 后 ， 拖 动 竖 直 的 线 到 二 2 的 
位 置 ， 产 生 如 图 9-12 所 示 的 效果 。 

图 9-12 展示 了 一 个 更 好 的 拟 合 ， 置 信 区 间 更 紧 地 靠 在 了 一 起 ， 表 示 预 测 中 的 不 确定 性 
更 小 了 。 两 端的 数据 在 拟 合 曲线 的 轨迹 上 面 。 











图 9-12 更 好 的 效果 


如 果 这 个 3 次 多 项 式 拟 合 得 比较 好 ， 试 一 试用 更 高 一 点 的 次 数 来 模拟 ， 看 一 看 精度 是 个 
是 比较 高 呢 ? 

因为 真正 的 函数 是 3 次 的 ， 要 用 高 一 点 的 精度 来 拟 合 它 ， 意 味 可 能 会 过 度 拟 合 。 在 
“Degree” 文 本 框 中 输入 “5”， 表 示 用 5 次 模型 来 进行 拟 合 。 产 生 的 结果 如 图 9-13 所 示 。 
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图 9-13 过度 拟 合 


根据 置信 区 间 的 测量 ， 这 个 拟 合 距离 数据 更 加 近 了 。 但 是 在 数据 之 间 的 区 间 ， 蔬 测 的 不 
确定 性 剧烈 地 增加 了 。 

出 现 这 种 置信 区 间 的 膨胀 现象 的 主要 原因 是 ， 数 据 实 际 没有 包含 足够 的 信息 去 精确 地 佑 
计 和 更 高 次 数 的 多 项 式 ， 因 此 即使 是 插值 法 在 这 种 情况 下 ， 也 是 有 风险 的 。 


9.2.4 | randtool 演示 程序 | 
randtool 上 数 
功能 : randtool 是 一 个 从 多 样本 的 概率 中 产生 随机 样本 ， 同 时 显示 直方 图 的 图 形 界面 。 
说 明 : randtool 演示 程序 有 以 下 特点 : 





e 一 个 样本 的 直方 图 。 

e 一 个 弹出 框 用 来 改变 分 布 函数 。 

e 滑 标 用 来 改变 参数 设置 。 

e 一 个 数据 输入 对 话 框 用 来 选择 样本 大 小 。 

e 数据 输入 对 话 框 用 来 选择 指定 的 参数 值 。 

e 数据 输入 对 话 框 用 来 选择 参数 滑 标的 最 大 值 。 

e 一 个 【Export】 按 钮 用 来 把 当前 的 样本 输出 到 变量 ans 中 。 

e 一 个 【Resample】 按 钮 可 以 根据 固定 的 样本 大 小 和 固定 的 参数 重复 地 产生 随机 数 。 
其 界面 如 图 9-14 所 示 。 











图 9-14 randtool 演示 程序 内 血 


[ 晤 ,obustdemo 演示 程序 | 
robustdemo 函数 
功能 : robustdemo 演示 程序 是 一 个 图 形 界 面 。 在 该 界面 中 ， 比 较 了 对 一 个 回应 和 -一 个 单 


一 的 预测 数据 的 最 小 二 乘 拟 合 和 一 个 鲁 棒 拟 合 的 结果 。 


说 明 : 要 打开 这 个 界面 ， 只 需 输 入 函数 名 即 可 : 
>> robustdemo 


结果 图 形 展现 有 两 条 拟 合 直线 的 分 散 点 。 一 条 直线 是 对 这 些 数据 的 最 小 三 乘 回 归 拟 合 ， 


鸭 外 一 条 是 鲁 棒 拟 合 〈 见 图 轩 15)。 在 界面 的 最 底部 是 每 条 线 的 公式 和 每 个 拟 合 的 标准 偏差 
的 误差 估计 。 


最 小 二 乘 拟 合 的 效果 主要 决定 于 数据 的 残留 量 和 各 个 点 的 杠杆 力量 。 残 留 量 仅仅 是 点 到 


直线 的 竖 直 距离 ， 杠杆 力 量 主要 是 衡量 每 个 点 距离 七 中 心 的 距离 。 


鲁 棒 拟 合 的 效果 也 依赖 于 赋 于 点 的 权重 ， 点 离 中 心 越 远 ， 权 重 越 小 。 
可 以 用 鼠标 右键 单 击 每 个 点 ， 来 查看 最 小 二 乘 拟 合 的 杠杆 作用 和 和 鲁 棒 拟 合 的 权重 。 
在 该 例 中 ， 右 边 最 远 的 点 的 杠杆 作用 为 0.35， 它 也 远离 直线 ， 所 以 它 对 直线 的 作用 很 
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大 。 但 是 ， 它 有 一 个 很 小 的 权重 ， 因 而 在 鲁 棒 拟 合 的 时 候 ， 它 被 有 效 地 排除 了 。 


人 
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疼 9-15 名 棒 拟 合 图 


使 用 鼠 怀 的 堪 键 ， 可 以 看 到 这 两 条 直线 是 如 何 变化 的 。 拖 动 一 个 点 到 一 个 新 的 地 方 同时 
按 下 鼠标 左 键 不 放 ， 当 鼠标 松 开 的 时 候 ， 两 条 拟 合 直线 都 会 重 绘 

把 最 右 端 的 点 向 直线 移动 ， 可 以 看 到 ， 两 条 直线 几乎 要 重合 了 。 现在 ， 这 个 点 几乎 占据 
了 所 有 的 鲁 棒 拟 合 的 权重 ， 如 网 9-16 所 示 。 
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图 9-16 几乎 重合 的 两 条 直线 


[3 ,smdemo 演示 程序 | 

rsmdemo 函数 

功能 : rsmdemo 演示 程序 是 一 个 通过 模拟 化 学 反应 来 演示 实验 设计 和 曲面 拟 合 的 图 形 交 
互 环 境 。 该 演示 的 目的 主要 是 找到 反应 体 的 级 别 以 最 大 化 反应 率 。 

说 明 :， 该 演示 程序 分 为 两 个 部 分 。 





第 一 部 分 es 
第 二 部 比较 反应 曲面 模型 。 








打开 这 个 界面 ， 只 需 输入 函数 的 名 字 即 可 


>> TSsmdemo 


(GD 





1. 第 一 部 分 

开始 前 ， 能 通过 Reaction Simulator 窗口 〈 见 图 9-17) 中 的 滑 标 来 控制 3 种 反应 体 的 分 
压力 : 气 、n- 戊 烷 和 蜡 成 烷 。 每 次 单 击 【Run】 按 钮 ， 反 应 体 的 级 别 和 运行 后 的 结果 就 进入 
到 Trial and Error Data 窗口 〈 见 图 9-18) 中 。 
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余 9-17 Reaction Simulator 窗 11 


FiegUre 2: Trial and rr6r at 人 湖 旦 狠 
File Edait Wiew JInsert Tools Desktop indow Jelp 
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贸 Analyze Piot 
图 9-18 Trial and Error Data 窗 山 


在 前 面 运行 结果 的 基础 上 ， 可 以 改变 反应 体 的 级 别 来 增加 反应 率 。 每 批 只 能 运行 13 
次 ， 当 运行 到 13 次 以 后 ， 就 可 以 选择 Trial and Error Data 窗口 中 的 【Plot】 菜 单 或 者 单 击 
【Analyze】 按 钮 来 画 出 反应 体 和 反应 率 之 间 的 关系 ， 如 网 9-19 所 示 。 当 单 击 Analyze 按钮 
时 ，rsmdemo 冰 数 调用 rstool 函数 ，， 用 这 个 函数 可 以 进一步 优化 得 到 的 效果 。 
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图 9-19 ”反应 体 与 反应 率 之 间 的 关系 


下 一 步 ， 从 实验 设计 的 结果 ， 执 行 另外 的 13 个 运行 结果 。 在 Experimental Data 窗口 
〈 见 图 9-20) 中 ， 单 击 【Do Experiment】 按 钮 ，rsmdemo 函数 调用 cordexch 函数 产生 一 个 
D- 最 优 设 计 ， 然 后 对 每 一 次 运行 产生 一 次 反应 率 〈 见 网 9-21 )。 
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| Response Surface | Nonlinear Model | Pict 
图 9-20 ”实验 数 捍 


现在 使 用 Experimental Data 窗口 中 的 【Plot】 菜 单 画 出 反应 体 与 反应 率 之 问 的 关系 ， 或 
者 单 击 【Response Surface】 按 钮 调用 rstool 函数 发 现 反 应 体 的 最 优 级 别 。 比 较 前 面 生成 的 两 
个 结果 ， 可 能 会 发 现下 面 的 一 些 不 同 之 处 : 
e@ 可 以 通过 实验 设计 得 到 的 数据 拟 合 一 个 一 次 的 模型 ， 但 是 通过 试 错 法 得 到 的 数据 可 能 
就 不 能 满足 一 个 二 次 模型 或 是 交互 作用 模型 。 
e@ 使 用 实验 设计 得 到 的 数据 ， 可 以 更 容易 地 发 现 反应 体 的 级 别 ， 从 而 最 大 化 反应 率 。 甚 
至 假设 发 现 试 错 法 中 的 最 好 的 设置 ， 那 么 轰 信 区 间 也 会 比 从 实验 设计 中 得 到 的 置信 
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图 9-21 产 牛 实验 数据 显示 
2. 第 二 部 分 


现在 通过 多 项 式 模型 和 非 线 性 模型 分 析 用 实验 设计 得 到 的 数据 ， 并 比较 它们 的 结果 。 用 
来 生成 数据 的 真正 的 过 程 ， 实 际 上 是 一 个 真正 的 模型 。 在 数据 的 范围 内 ， 一 个 二 次 模型 可 以 
很 好 地 近似 于 这 个 真正 的 模型 。 

对 于 多 项 式 模拟 ， 单 击 Experimental Data 窗口 中 的 【Response Surface】 按 钮 。Rsmdemo 
函数 调用 rstool 函数 ，rstool 函数 几 一 个 二 次 横 型 来 拟 合 这 些 数据 。 拖 动 参考 线 改变 反应 体 
的 级 别 ， 同 时 发 现 最 优 的 反应 率 。 观 察 普 信 区 间 的 宽度 。 

现在 单 击 【Nonlinear Model】 按 钮 ，rsmodemo 数 调用 nlintool 冰 数 。nlintool 函数 用 
Hougen-Watson 模型 来 拟 合 这 些 数据 ， 如 图 9-22 所 示 。 

和 二 次 模型 一 样 ， 可 以 拖 动 参考 线 改 变 当 前 反应 体 的 级 别 ， 观 察 反 应 率 和 置信 区 间 。 

比较 刚刚 得 到 的 两 组 结果 ， 即 使 这 个 真正 的 模型 是 非 线性 的 ， 也 会 发 现 多 项 式 模型 提供 
了 一 个 很 好 的 拟 合 。 因 为 多 项 式 比 非 线性 拟 合 处 理 起 来 更 容易 ， 所 以 多 项 式 模型 常常 是 更 可 





取 的 ， 即 使 原来 的 模型 是 非 线性 的 。 但 是 ， 有 一 点 值得 注意 ， 多 项 式 模型 用 来 推测 数据 区 域 
外 的 数据 是 不 可 靠 的 。 
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图 9-22 ”Hougen-Watson 模拟 拟 合 
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附录 A。 标准 正 态 分 布 函数 表 
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( 续 ) 
0.04 
0.99980 
0.99986 
0.99991 
0.99994 
0.99996 
0.99997 
0.99998 
0.99999 
0.99999 
1.00000 
0.09 
0.5359 
0.5753 
0.6141 
0.6517 
0.6879 
0.7224 
0.7549 
0.7852 
0.8133 
0.8389 
0.8621 
0.8830 
0.90147 
0.91774 
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0.97062 
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0.99520 
0.99643 
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0.99900 
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0.99989 
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附录 B 六 分 布 上 侧 分 位 点 表 
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2 | 000 | 0 | 00L | 0 | 020 | 0575 
3 | 002 | 05 | 026 | 0352 | 0584 1L213 
4 | 027 | oz | 0484 | 0 | lo | 1.923 
5 | 042 | 054 | 0831 | 14 | 16I0 | 2675 
6 3.455 
7 | 09%89 | 1?39 | 1 | 2I67 | 283 | 4255 
8 | 134 | 1646 | 2 | 2733 | 340 | 507! 
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11 7.584 
12 8.438 
13 9.299 
14 10.165 
15 7.261 8.547 11.037 
16 11.912 
17 12.792 
18 | 625 | 705 | 823L | 9390 | 10865 | 13675 
19 | 684 | 763 | 8%7 | 1I007 | 165L | 14562 
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21 13.240 16.344 
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30 24.478 
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35 29.054 
36 29.973 
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38 31.815 
39 全 32.737 
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C=0.005 


7.879 
10.597 
12.833 
14.860 
16.750 
18.548 
20.278 
21.955 
23.589 
25.188 
26.750 
28.299 
29.819 
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38.582 
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41.401 
42.796 
44.181 
45.559 
46.928 
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52.336 
533.672 
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附录 C 分 布 上 侧 分 位 点 表 
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cx = 0.005 


63.657 
9.925 
5.841 
4.604 
4.032 
3.707 
3.499 
3.355 
3.250 
3.169 
3.106 
3.055 
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2.831 
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